論文の概要: What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
- arxiv url: http://arxiv.org/abs/2511.15593v1
- Date: Wed, 19 Nov 2025 16:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.900444
- Title: What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
- Title(参考訳): 優れたAI研究エージェントになるには、何が必要か? : 理想の多様性の役割を研究する
- Authors: Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach,
- Abstract要約: エージェントのパフォーマンスにおいて,アイデアの多様性が果たす役割について検討する。
異なるモデルとエージェントの足場は、様々なアイデアの多様性をもたらす。
高いパフォーマンスのエージェントは、アイデアの多様性を増す傾向にある。
- 参考スコア(独自算出の注目度): 40.27555449103923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI research agents offer the promise to accelerate scientific progress by automating the design, implementation, and training of machine learning models. However, the field is still in its infancy, and the key factors driving the success or failure of agent trajectories are not fully understood. We examine the role that ideation diversity plays in agent performance. First, we analyse agent trajectories on MLE-bench, a well-known benchmark to evaluate AI research agents, across different models and agent scaffolds. Our analysis reveals that different models and agent scaffolds yield varying degrees of ideation diversity, and that higher-performing agents tend to have increased ideation diversity. Further, we run a controlled experiment where we modify the degree of ideation diversity, demonstrating that higher ideation diversity results in stronger performance. Finally, we strengthen our results by examining additional evaluation metrics beyond the standard medal-based scoring of MLE-bench, showing that our findings still hold across other agent performance metrics.
- Abstract(参考訳): AI研究エージェントは、機械学習モデルの設計、実装、トレーニングを自動化することで、科学的進歩を加速する約束を提供する。
しかし、この分野はまだ初期段階であり、エージェント軌道の成功や失敗を導く重要な要因は、完全には理解されていない。
エージェントのパフォーマンスにおいて,アイデアの多様性が果たす役割について検討する。
まず、エージェントの軌跡をMLE-benchで分析する。MLE-benchは、AI研究エージェントを評価するためによく知られたベンチマークで、さまざまなモデルやエージェントの足場にまたがる。
分析の結果、異なるモデルとエージェントの足場は様々なアイデアの多様性をもたらし、高いパフォーマンスのエージェントはアイデアの多様性を増す傾向にあることが明らかとなった。
さらに,概念の多様性の度合いを変化させる制御実験を行い,高い概念の多様性がより高い性能をもたらすことを示した。
最後に,MLEベンチの標準的な評価基準を超越した評価基準を検討した結果,他のエージェントのパフォーマンス指標よりも高い結果が得られた。
関連論文リスト
- AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Exploring Design of Multi-Agent LLM Dialogues for Research Ideation [4.561804070932164]
大規模言語モデル(LLM)は、研究アイデア生成のような創造的なタスクをサポートするために、ますます使われている。
エージェントの役割の異なる構成、エージェントの数、対話深度を比較し、これらの要因が生成したアイデアの新規性と実現可能性にどのように影響するかを理解する。
論文 参考訳(メタデータ) (2025-07-11T06:53:46Z) - OAgents: An Empirical Study of Building Effective Agents [46.50371876218872]
キーエージェントコンポーネントにおける一般的な設計選択の影響を,公平かつ厳密な方法で検討する。
この結果に基づいて,新たな基盤エージェントフレームワークであるOAgentsをオープンソースとして開発しています。
論文 参考訳(メタデータ) (2025-06-17T17:59:02Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Episodic Future Thinking Mechanism for Multi-agent Reinforcement Learning [2.992602379681373]
本稿では、強化学習(RL)エージェントのためのエピソード・フューチャー・シンキング(EFT)機構を導入する。
まず、異種ポリシーのアンサンブルで多様な文字をキャプチャするマルチ文字ポリシーを開発する。
キャラクタが推論されると、エージェントはターゲットエージェントの今後のアクションを予測し、将来のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-10-22T19:12:42Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。