論文の概要: Evaluating Large Language Models for Real-World Engineering Tasks
- arxiv url: http://arxiv.org/abs/2505.13484v1
- Date: Mon, 12 May 2025 14:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.264565
- Title: Evaluating Large Language Models for Real-World Engineering Tasks
- Title(参考訳): 実世界の工学的課題に対する大規模言語モデルの評価
- Authors: Rene Heesch, Sebastian Eilermann, Alexander Windmann, Alexander Diedrich, Philipp Rosenthal, Oliver Niggemann,
- Abstract要約: 本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
- 参考スコア(独自算出の注目度): 75.97299249823972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are transformative not only for daily activities but also for engineering tasks. However, current evaluations of LLMs in engineering exhibit two critical shortcomings: (i) the reliance on simplified use cases, often adapted from examination materials where correctness is easily verifiable, and (ii) the use of ad hoc scenarios that insufficiently capture critical engineering competencies. Consequently, the assessment of LLMs on complex, real-world engineering problems remains largely unexplored. This paper addresses this gap by introducing a curated database comprising over 100 questions derived from authentic, production-oriented engineering scenarios, systematically designed to cover core competencies such as product design, prognosis, and diagnosis. Using this dataset, we evaluate four state-of-the-art LLMs, including both cloud-based and locally hosted instances, to systematically investigate their performance on complex engineering tasks. Our results show that LLMs demonstrate strengths in basic temporal and structural reasoning but struggle significantly with abstract reasoning, formal modeling, and context-sensitive engineering logic.
- Abstract(参考訳): 大きな言語モデル(LLM)は日々のアクティビティだけでなく、エンジニアリングタスクにも変換される。
しかし、工学におけるLLMの評価には2つの重大な欠点がある。
一 簡易な使用例に依存して、しばしば正確性を容易に検証できる検査資料に適合し、
(II)重要なエンジニアリング能力の獲得に不十分なアドホックシナリオの使用。
その結果,LLMの複雑な実世界の工学的問題に対する評価は未解明のままである。
本稿では, 製品設計, 予後, 診断などのコア能力をカバーするために体系的に設計された, 真正かつ生産指向のエンジニアリングシナリオから得られた100以上の質問からなるキュレートされたデータベースを導入することにより, このギャップを解消する。
このデータセットを用いて、クラウドベースおよびローカルホスト型インスタンスを含む4つの最先端LCMを評価し、複雑なエンジニアリングタスクにおけるそれらのパフォーマンスを体系的に調査する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
関連論文リスト
- EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark [10.265704144939503]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、科学や数学など様々な分野で有望なスキルを実証している。
実用工学的課題の解決におけるLMMの能力評価を目的としたマルチモーダルベンチマークであるEEE-Benchを提案する。
我々のベンチマークは、アナログ回路や制御システムなど10の必須課題にまたがる2860の慎重に計算された問題からなる。
論文 参考訳(メタデータ) (2024-11-03T09:17:56Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - A Case Study on Test Case Construction with Large Language Models:
Unveiling Practical Insights and Challenges [2.7029792239733914]
本稿では,ソフトウェア工学の文脈におけるテストケース構築における大規模言語モデルの適用について検討する。
定性分析と定量分析の混合により, LLMが試験ケースの包括性, 精度, 効率に与える影響を評価する。
論文 参考訳(メタデータ) (2023-12-19T20:59:02Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。