論文の概要: Benchmarking Large Language Models As AI Research Agents
- arxiv url: http://arxiv.org/abs/2310.03302v1
- Date: Thu, 5 Oct 2023 04:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:21:38.653408
- Title: Benchmarking Large Language Models As AI Research Agents
- Title(参考訳): AI研究エージェントとしての大規模言語モデルのベンチマーク
- Authors: Qian Huang, Jian Vora, Percy Liang, Jure Leskovec
- Abstract要約: 我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
- 参考スコア(独自算出の注目度): 105.65277755304277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific experimentation involves an iterative process of creating
hypotheses, designing experiments, running experiments, and analyzing the
results. Can we build AI research agents to perform these long-horizon tasks?
To take a step towards building and evaluating research agents on such
open-ended decision-making tasks, we focus on the problem of machine learning
engineering: given a task description and a dataset, build a high-performing
model. In this paper, we propose MLAgentBench, a suite of ML tasks for
benchmarking AI research agents. Agents can perform actions like
reading/writing files, executing code, and inspecting outputs. With these
actions, agents could run experiments, analyze the results, and modify the code
of entire machine learning pipelines, such as data processing, architecture,
training processes, etc. The benchmark then automatically evaluates the agent's
performance objectively over various metrics related to performance and
efficiency. We also design an LLM-based research agent to automatically perform
experimentation loops in such an environment. Empirically, we find that a
GPT-4-based research agent can feasibly build compelling ML models over many
tasks in MLAgentBench, displaying highly interpretable plans and actions.
However, the success rates vary considerably; they span from almost 90\% on
well-established older datasets to as low as 10\% on recent Kaggle Challenges
-- unavailable during the LLM model's pretraining -- and even 0\% on newer
research challenges like BabyLM. Finally, we identify several key challenges
for LLM-based research agents such as long-term planning and hallucination. Our
code is released at https://github.com/snap-stanford/MLAgentBench.
- Abstract(参考訳): 科学的実験は仮説の作成、実験の設計、実験の実行、結果の分析を反復的に行う。
長期的なタスクを実行するAI研究エージェントを構築できるだろうか?
このようなオープンな意思決定タスクで研究エージェントを構築し評価するために、タスク記述とデータセットが与えられた場合、我々は機械学習エンジニアリングの問題に焦点を当て、ハイパフォーマンスなモデルを構築します。
本稿では,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
これらのアクションによって、エージェントは実験を実行し、結果を分析し、データ処理、アーキテクチャ、トレーニングプロセスなど、マシンラーニングパイプライン全体のコードを変更することができる。
ベンチマークはエージェントのパフォーマンスを、パフォーマンスと効率に関するさまざまな指標に対して客観的に評価する。
また、このような環境で実験ループを自動実行するLLMベースの研究エージェントを設計する。
実験により, GPT-4をベースとした研究エージェントは, MLAgentBenchの多くのタスクにおいて, 説得力のあるMLモデルを構築できることがわかった。
しかしながら、成功率は、確立された古いデータセットの90%近くから、最近のKaggle Challenge(LLMモデルの事前トレーニング中に利用できない)の10倍、BabyLMのような新しい研究課題の0倍まで、大きく異なる。
最後に, 長期計画や幻覚など, LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
私たちのコードはhttps://github.com/snap-stanford/mlagentbenchでリリースしています。
関連論文リスト
- DS-Agent: Automated Data Science by Empowering Large Language Models
with Case-Based Reasoning [60.2784156133412]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific
Data Visualization [88.72769238904908]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - Large Language Model based Multi-Agents: A Survey of Progress and
Challenges [46.857697157523994]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。