論文の概要: Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra
- arxiv url: http://arxiv.org/abs/2404.03647v1
- Date: Thu, 4 Apr 2024 17:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:42:53.592691
- Title: Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra
- Title(参考訳): 制御工学における大規模言語モデルの能力: GPT-4, Claude 3 Opus, Gemini 1.0 Ultraに関するベンチマーク研究
- Authors: Darioush Kevian, Usman Syed, Xingang Guo, Aaron Havens, Geir Dullerud, Peter Seiler, Lianhui Qin, Bin Hu,
- Abstract要約: GPT-4, Claude 3 Opus, Gemini 1.0 Ultra を用いて, 学部レベルの制御問題の解法について検討した。
我々は,人間専門家のパネルによる評価を行った。
我々の研究は、制御工学に人工知能を採用するという、より広い目標に向けた最初のステップとなる。
- 参考スコア(独自算出の注目度): 7.487691551328453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the capabilities of state-of-the-art large language models (LLMs) such as GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra in solving undergraduate-level control problems. Controls provides an interesting case study for LLM reasoning due to its combination of mathematical theory and engineering design. We introduce ControlBench, a benchmark dataset tailored to reflect the breadth, depth, and complexity of classical control design. We use this dataset to study and evaluate the problem-solving abilities of these LLMs in the context of control engineering. We present evaluations conducted by a panel of human experts, providing insights into the accuracy, reasoning, and explanatory prowess of LLMs in control engineering. Our analysis reveals the strengths and limitations of each LLM in the context of classical control, and our results imply that Claude 3 Opus has become the state-of-the-art LLM for solving undergraduate control problems. Our study serves as an initial step towards the broader goal of employing artificial general intelligence in control engineering.
- Abstract(参考訳): 本稿では,GPT-4,Claude 3 Opus,Gemini 1.0 Ultraといった最先端の大規模言語モデル(LLM)による学部レベルの制御問題の解法について検討する。
制御は、数学的理論と工学設計の組み合わせによるLSM推論の興味深いケーススタディを提供する。
古典的な制御設計の幅、深さ、複雑さを反映したベンチマークデータセットであるControlBenchを紹介する。
このデータセットを用いて、制御工学の文脈において、これらのLCMの問題解決能力について研究し、評価する。
制御工学におけるLSMの精度, 推論, 説明力について, 人間の専門家による評価を行った。
分析の結果,古典的制御の文脈における各LLMの長所と短所が明らかとなり,Claude 3 Opus が学部制御問題の解法として最先端の LLM となったことが示唆された。
我々の研究は、制御工学に人工知能を採用するという、より広い目標に向けた最初のステップとなる。
関連論文リスト
- Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of
Prompting Strategies [51.485598133884615]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、ITの一般的な方法論、ITデータセットの構築、ITモデルのトレーニング、異なるモダリティ、ドメイン、アプリケーションへのアプリケーションを含む、文献を体系的にレビューする。
また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - LLM-based Frameworks for Power Engineering from Routine to Novel Tasks [3.2328326598511983]
エネルギーセクターのデジタル化は パワーエンジニアと研究者の コーディング責任を拡大しました
本稿では、この負担を軽減するために、LLM(Large Language Models)を活用する可能性について検討する。
論文 参考訳(メタデータ) (2023-05-18T15:36:06Z) - Auditing large language models: a three-layered approach [0.0]
大規模言語モデル(LLM)は人工知能(AI)研究における大きな進歩を表している。
LLMはまた、重大な倫理的・社会的課題と結びついている。
これまでの研究は、監査を有望なガバナンスメカニズムとして取り上げてきた。
論文 参考訳(メタデータ) (2023-02-16T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。