論文の概要: FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights
- arxiv url: http://arxiv.org/abs/2602.02905v1
- Date: Mon, 02 Feb 2026 23:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.134281
- Title: FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights
- Title(参考訳): FIRE-Bench: 科学的洞察の再検討におけるエージェントの評価
- Authors: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu,
- Abstract要約: FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
- 参考スコア(独自算出の注目度): 63.32178443510396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した自律エージェントは、科学的発見をエンドツーエンドで加速するが、検証可能な発見能力の厳格な評価は依然として中心的な課題である。
既存のベンチマークはトレードオフに直面している。彼らは自動生成された研究成果のLCM-as-judge評価に大きく依存するか、あるいは科学的な洞察のために粗いプロキシを提供するために、便利だが孤立したパフォーマンスメトリクスを最適化する。
FIRE-Bench(Full-cycle Insight Rediscovery Evaluation)は,近年の高インパクト機械学習研究の確立した発見の再検討を通じてエージェントを評価するベンチマークである。
エージェントは、公開され検証された研究から抽出された高レベルの研究質問のみを与えられ、アイデア、設計実験、コードの実装、計画の実行、実証的な証拠によって支持された結論の導出を自律的に行う必要がある。
FIRE-Bench 上の gpt-5 のようなフロンティア LLM のバックボーンを有する最先端のエージェントについて検討した。
本研究は, 最強のエージェントでさえ, 限られた再審理成功(50F1)を達成し, ラン毎に高いばらつきを示し, 実験設計, 実行, エビデンスに基づく推論において繰り返し発生する故障モードを示す。
FIRE-Benchは、信頼できるエージェント駆動科学発見に向けた進捗を測定するための厳格で診断的なフレームワークを提供する。
関連論文リスト
- HeurekaBench: A Benchmarking Framework for AI Co-scientist [2.206319727896241]
HeurekaBenchは、実験データセットに対する探索的でオープンな研究質問を伴うベンチマークを作成するためのフレームワークである。
単細胞生物学のフレームワークをインスタンス化し、Sc-HeurekaBenchベンチマークを取得し、最先端の単細胞エージェントと比較する。
批判モジュールを追加することで、オープンソースLLMエージェントの不正な応答を最大22%改善し、クローズドソースエージェントとのギャップを埋めることができる。
論文 参考訳(メタデータ) (2026-01-04T22:16:42Z) - Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - Evaluating Large Language Models in Scientific Discovery [91.732562776782]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。
生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。
このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文 参考訳(メタデータ) (2025-12-17T16:20:03Z) - Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent [52.876617746453995]
ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
論文 参考訳(メタデータ) (2025-11-30T17:16:47Z) - FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth [43.606494515048524]
大規模言語モデル(LLM)は、自動機械学習研究エージェントへの関心が高まっている。
既存のベンチマークは、学術的な厳格さを無視しながら、エンジニアリングの側面を過度に強調する傾向がある。
FML-benchは、機械学習の自動研究エージェントを、多種多様な8つの基礎的な機械学習研究問題に対して評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-12T06:41:05Z) - Hypothesis Hunting with Evolving Networks of Autonomous Scientific Agents [52.50038914857797]
この過程を仮説探索と呼び、膨大な複雑な仮説空間を横断する持続的な探索を通して洞察を累積的に探索する。
本稿では、エージェント、ネットワーク、評価規範の相互作用としてフレームワークモデリングディスカバリであるAScienceを紹介し、ASCollabとして実装する。
実験により、このような社会的ダイナミクスは、多様性-品質-ノーベルティフロンティアに沿った専門家評価結果の蓄積を可能にすることが示された。
論文 参考訳(メタデータ) (2025-10-08T08:47:07Z) - MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [70.72318131988102]
MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。
MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文 参考訳(メタデータ) (2025-05-26T13:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。