論文の概要: FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics
- arxiv url: http://arxiv.org/abs/2605.17373v1
- Date: Sun, 17 May 2026 10:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.365852
- Title: FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics
- Title(参考訳): FML-bench: 探索ダイナミクスの観点からのAI研究エージェント戦略の制御された研究
- Authors: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Tingting Chen, Yiming Tang, Samson Yu, Yingtao Zhu, Srinivas Anumasa, Zufeng Zhang, Tianyi Zhang, Chang Liu, Zhengyao Jiang, Anirudh Goyal, Dianbo Liu,
- Abstract要約: FML-Benchは10ドメインにわたる18の基本的なML研究タスクのベンチマークである。
エージェント戦略と実行インフラストラクチャを分離し、12のプロセスレベルの行動メトリクスを定義する。
機会が密集している場合には欲求探索がより効果的になる傾向にあり、機会が不足している場合には、木探索と進化戦略がより効果的になる傾向にある。
- 参考スコア(独自算出の注目度): 24.125726163497742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI research agents accelerate ML research by automating hypothesis generation, experimentation, and empirical refinement. Existing agent strategies range from greedy hill-climbing to tree search and evolutionary optimization, yet which strategy choices drive performance remains unclear. Answering this question requires a benchmark that separates agent strategy (e.g., search topology) from execution infrastructure (e.g., code editor), so that performance differences are attributable to strategy rather than infrastructure, and that provides process-level metrics beyond final scores to analyze exploration behaviors. Existing benchmarks offer limited support. We propose FML-Bench, a benchmark of 18 fundamental ML research tasks across 10 domains that separates agent strategy from execution infrastructure and defines 12 process-level behavioral metrics. Evaluating six representative agents, we find that: (1) strategy complexity alone does not guarantee strong performance: a simple greedy hill-climber nearly matches the best-performing tree-search agent, both well above the remaining agents; (2) our analysis suggests this pattern relates to improvement opportunity structure: greedy search tends to be more effective when opportunities are dense, while tree-search and evolutionary strategies tend to be more effective when opportunities are sparse; an adaptive agent built on this insight switches to broader exploration upon detecting improvement stagnation and outperforms the other six agents, lending initial support to this observation; and (3) process-level analysis reveals that early convergence and directionally focused exploration are significantly associated with final performance, while solution diversity and compute cost are not. Our benchmark is available at: https://github.com/qrzou/FML-bench.
- Abstract(参考訳): AI研究エージェントは仮説生成、実験、経験的洗練を自動化することでML研究を加速する。
既存のエージェント戦略は、グリーディヒルクライミングからツリー探索や進化的最適化まで様々であるが、どの戦略選択が性能を駆動するかは定かではない。
この質問に答えるためには、エージェント戦略(例えば、検索トポロジ)を実行インフラストラクチャ(例えば、コードエディタ)から分離するベンチマークが必要である。
既存のベンチマークは限定的なサポートを提供する。
FML-Benchは10ドメインにわたる18の基本的なML研究タスクのベンチマークであり、エージェント戦略と実行インフラストラクチャを分離し、12のプロセスレベルの行動メトリクスを定義する。
その結果,(1) 戦略複雑度だけでは高い性能を保証できない,(1) 単純なグレディ・ヒルクライマーは,いずれも最も優れた木探索エージェントとほぼ一致している,(2) 分析により,このパターンは,機会が密集した場合には,より効果的になる傾向にある,一方,樹探索および進化的戦略は,機会が希薄な場合には,より効果的であることが示唆された; この洞察に基づいて構築された適応的エージェントは,他の6人のエージェントの停滞を検知し,その観察に初期支援を施し,(3) プロセスレベルの分析により,早期収束と方向性に焦点を絞った探索が最終性能に大きく関係している,という結果が得られた。
私たちのベンチマークは、https://github.com/qrzou/FML-bench.comで公開されています。
関連論文リスト
- CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search [51.911048955965136]
CoSearchは多段階推論エージェントと生成ドキュメントランキングモデルを共同でトレーニングするフレームワークである。
この結果から, 推論エージェントと検索システムの協調訓練は, 実現可能であり, 性能も高いことが示唆された。
論文 参考訳(メタデータ) (2026-04-19T17:48:17Z) - Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search [5.481048072631037]
本稿では,検索エージェントの性能向上と訓練を目的とした,階層的体験(HiExp)を提案する。
比較分析とマルチレベルクラスタリング機構を通じて経験的知識を抽出し,生の推論軌道を階層的経験知識に変換する。
提案手法は性能向上を実現し,強いクロスタスクとクロスアルゴリズムの一般化を示す。
論文 参考訳(メタデータ) (2026-04-09T11:44:44Z) - Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization [64.61432234404276]
emphSearch More, Think Less (SMTL) は、効率性と一般化の両方をターゲットとした長期エージェント検索のためのフレームワークである。
我々は、教師付き微調整と強化学習を用いてエンドツーエンドエージェントを訓練し、ベンチマーク全体にわたって、強固で頻繁なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-26T06:46:41Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Beyond Fast and Slow: Cognitive-Inspired Elastic Reasoning for Large Language Models [39.03483371038282]
CogERは、人間の階層的推論にインスパイアされたフレームワークである。
外部ツールを必要とするクエリに対して、Cognitive Tool-Assisted Reasoningを導入する。
CogERは最先端のTest-Timeスケーリングメソッドより優れています。
論文 参考訳(メタデータ) (2025-12-17T05:11:58Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - Alchemy: A structured task distribution for meta-reinforcement learning [52.75769317355963]
本稿では,構造的リッチネスと構造的透明性を組み合わせたメタRL研究のための新しいベンチマークを提案する。
Alchemyは3Dビデオゲームで、エピソードからエピソードまで手続き的に再サンプリングされる潜伏した因果構造を含んでいる。
本稿では,アルケミーの強力なRL剤について検討し,その1つについて詳細な分析を行った。
論文 参考訳(メタデータ) (2021-02-04T23:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。