Fugu-MT 論文翻訳(概要): Evaluating Large Language Models for Real-World Engineering Tasks

論文の概要: Evaluating Large Language Models for Real-World Engineering Tasks

arxiv url: http://arxiv.org/abs/2505.13484v1
Date: Mon, 12 May 2025 14:05:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.264565
Title: Evaluating Large Language Models for Real-World Engineering Tasks
Title（参考訳）: 実世界の工学的課題に対する大規模言語モデルの評価
Authors: Rene Heesch, Sebastian Eilermann, Alexander Windmann, Alexander Diedrich, Philipp Rosenthal, Oliver Niggemann,
Abstract要約: 本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
参考スコア（独自算出の注目度）: 75.97299249823972
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are transformative not only for daily activities but also for engineering tasks. However, current evaluations of LLMs in engineering exhibit two critical shortcomings: (i) the reliance on simplified use cases, often adapted from examination materials where correctness is easily verifiable, and (ii) the use of ad hoc scenarios that insufficiently capture critical engineering competencies. Consequently, the assessment of LLMs on complex, real-world engineering problems remains largely unexplored. This paper addresses this gap by introducing a curated database comprising over 100 questions derived from authentic, production-oriented engineering scenarios, systematically designed to cover core competencies such as product design, prognosis, and diagnosis. Using this dataset, we evaluate four state-of-the-art LLMs, including both cloud-based and locally hosted instances, to systematically investigate their performance on complex engineering tasks. Our results show that LLMs demonstrate strengths in basic temporal and structural reasoning but struggle significantly with abstract reasoning, formal modeling, and context-sensitive engineering logic.
Abstract（参考訳）: 大きな言語モデル(LLM)は日々のアクティビティだけでなく、エンジニアリングタスクにも変換される。しかし、工学におけるLLMの評価には2つの重大な欠点がある。一簡易な使用例に依存して、しばしば正確性を容易に検証できる検査資料に適合し、 (II)重要なエンジニアリング能力の獲得に不十分なアドホックシナリオの使用。その結果,LLMの複雑な実世界の工学的問題に対する評価は未解明のままである。本稿では, 製品設計, 予後, 診断などのコア能力をカバーするために体系的に設計された, 真正かつ生産指向のエンジニアリングシナリオから得られた100以上の質問からなるキュレートされたデータベースを導入することにより, このギャップを解消する。このデータセットを用いて、クラウドベースおよびローカルホスト型インスタンスを含む4つの最先端LCMを評価し、複雑なエンジニアリングタスクにおけるそれらのパフォーマンスを体系的に調査する。以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。

関連論文リスト

Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
Practical Considerations for Agentic LLM Systems [5.455744338342196]
本稿では、確立されたアプリケーションパラダイムの文脈における研究コミュニティからの実行可能な洞察と考察について述べる。すなわち、アプリケーション中心の文献における一般的な実践に基づいて、関連する研究成果を4つの幅広いカテゴリ – プランニング、メモリツール、コントロールフロー – に位置づける。
論文参考訳（メタデータ） (2024-12-05T11:57:49Z)
EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark [10.265704144939503]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、科学や数学など様々な分野で有望なスキルを実証している。実用工学的課題の解決におけるLMMの能力評価を目的としたマルチモーダルベンチマークであるEEE-Benchを提案する。我々のベンチマークは、アナログ回路や制御システムなど10の必須課題にまたがる2860の慎重に計算された問題からなる。
論文参考訳（メタデータ） (2024-11-03T09:17:56Z)
Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文参考訳（メタデータ） (2024-10-25T18:36:37Z)
CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。 LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文参考訳（メタデータ） (2024-07-30T05:40:32Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
A Case Study on Test Case Construction with Large Language Models: Unveiling Practical Insights and Challenges [2.7029792239733914]
本稿では,ソフトウェア工学の文脈におけるテストケース構築における大規模言語モデルの適用について検討する。定性分析と定量分析の混合により, LLMが試験ケースの包括性, 精度, 効率に与える影響を評価する。
論文参考訳（メタデータ） (2023-12-19T20:59:02Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。