論文の概要: Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra
- arxiv url: http://arxiv.org/abs/2404.03647v1
- Date: Thu, 4 Apr 2024 17:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:42:53.592691
- Title: Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra
- Title(参考訳): 制御工学における大規模言語モデルの能力: GPT-4, Claude 3 Opus, Gemini 1.0 Ultraに関するベンチマーク研究
- Authors: Darioush Kevian, Usman Syed, Xingang Guo, Aaron Havens, Geir Dullerud, Peter Seiler, Lianhui Qin, Bin Hu,
- Abstract要約: GPT-4, Claude 3 Opus, Gemini 1.0 Ultra を用いて, 学部レベルの制御問題の解法について検討した。
我々は,人間専門家のパネルによる評価を行った。
我々の研究は、制御工学に人工知能を採用するという、より広い目標に向けた最初のステップとなる。
- 参考スコア(独自算出の注目度): 7.487691551328453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the capabilities of state-of-the-art large language models (LLMs) such as GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra in solving undergraduate-level control problems. Controls provides an interesting case study for LLM reasoning due to its combination of mathematical theory and engineering design. We introduce ControlBench, a benchmark dataset tailored to reflect the breadth, depth, and complexity of classical control design. We use this dataset to study and evaluate the problem-solving abilities of these LLMs in the context of control engineering. We present evaluations conducted by a panel of human experts, providing insights into the accuracy, reasoning, and explanatory prowess of LLMs in control engineering. Our analysis reveals the strengths and limitations of each LLM in the context of classical control, and our results imply that Claude 3 Opus has become the state-of-the-art LLM for solving undergraduate control problems. Our study serves as an initial step towards the broader goal of employing artificial general intelligence in control engineering.
- Abstract(参考訳): 本稿では,GPT-4,Claude 3 Opus,Gemini 1.0 Ultraといった最先端の大規模言語モデル(LLM)による学部レベルの制御問題の解法について検討する。
制御は、数学的理論と工学設計の組み合わせによるLSM推論の興味深いケーススタディを提供する。
古典的な制御設計の幅、深さ、複雑さを反映したベンチマークデータセットであるControlBenchを紹介する。
このデータセットを用いて、制御工学の文脈において、これらのLCMの問題解決能力について研究し、評価する。
制御工学におけるLSMの精度, 推論, 説明力について, 人間の専門家による評価を行った。
分析の結果,古典的制御の文脈における各LLMの長所と短所が明らかとなり,Claude 3 Opus が学部制御問題の解法として最先端の LLM となったことが示唆された。
我々の研究は、制御工学に人工知能を採用するという、より広い目標に向けた最初のステップとなる。
関連論文リスト
- Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions [15.350973327319418]
大規模言語モデル(LLM)は、ますます広範囲の日常アプリケーションに統合されている。
このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。
GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70Bをチェーン・オブ・ソート, EmotionPrompting, ExpertPrompting, Sandbagging, Re-Reading prompt Engineering Techniqueでテストした。
論文 参考訳(メタデータ) (2024-09-30T14:00:34Z) - Benchmarking the Capabilities of Large Language Models in Transportation System Engineering: Accuracy, Consistency, and Reasoning Behaviors [17.20186037322538]
幅広い分野の交通工学的問題のサンプルを含むベンチマークデータセットであるTransportBenchを紹介した。
このデータセットは、さまざまな商用およびオープンソースの大規模言語モデル(LLM)の能力を評価するために、人間の専門家によって使用される。
われわれの研究は、複雑な交通問題に人工知能を活用するための、すばらしい第一歩だ。
論文 参考訳(メタデータ) (2024-08-15T17:55:45Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Exploring the Efficacy of Large Language Models (GPT-4) in Binary Reverse Engineering [4.526103806673449]
この研究は、基本的なコード解釈に関する第1段階と、より複雑なマルウェア分析に関する第2段階の2段階を含む。
この研究は、リバースエンジニアリングにおけるLLMの可能性と現在の限界を強調し、将来の応用と改善のための重要な洞察を明らかにしている。
論文 参考訳(メタデータ) (2024-06-09T09:23:58Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。