論文の概要: InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research
- arxiv url: http://arxiv.org/abs/2510.27598v2
- Date: Mon, 03 Nov 2025 10:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 14:12:28.034774
- Title: InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research
- Title(参考訳): InnovatorBench: InnovatorBench: Innovative LLM Research におけるエージェントの能力評価
- Authors: Yunze Wu, Dayuan Fu, Weiye Si, Zhen Huang, Mohan Jiang, Keyu Li, Shijie Xia, Jie Sun, Tianze Xu, Xiangkun Hu, Pengrui Lu, Xiaojie Cai, Lyumanshan Ye, Wenhong Zhu, Yang Xiao, Pengfei Liu,
- Abstract要約: InnovatorBenchは、LLM(Large Language Model)研究を行うエージェントの現実的なエンドツーエンド評価のためのベンチマークプラットフォームである。
データ・コンストラクション、フィルタリング、拡張、ロス・デザイン、リワード・デザイン、スカフォード・コンストラクションにまたがる20のタスクで構成されている。
我々はまた、リッチなアクションスペース、分散された長期実行、非同期監視、スナップショット保存を提供するResearchGymの開発も行っている。
- 参考スコア(独自算出の注目度): 36.46396692622759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents could accelerate scientific discovery by automating hypothesis formation, experiment design, coding, execution, and analysis, yet existing benchmarks probe narrow skills in simplified settings. To address this gap, we introduce InnovatorBench, a benchmark-platform pair for realistic, end-to-end assessment of agents performing Large Language Model (LLM) research. It comprises 20 tasks spanning Data Construction, Filtering, Augmentation, Loss Design, Reward Design, and Scaffold Construction, which require runnable artifacts and assessment of correctness, performance, output quality, and uncertainty. To support agent operation, we develop ResearchGym, a research environment offering rich action spaces, distributed and long-horizon execution, asynchronous monitoring, and snapshot saving. We also implement a lightweight ReAct agent that couples explicit reasoning with executable planning using frontier models such as Claude-4, GPT-5, GLM-4.5, and Kimi-K2. Our experiments demonstrate that while frontier models show promise in code-driven research tasks, they struggle with fragile algorithm-related tasks and long-horizon decision making, such as impatience, poor resource management, and overreliance on template-based reasoning. Furthermore, agents require over 11 hours to achieve their best performance on InnovatorBench, underscoring the benchmark's difficulty and showing the potential of InnovatorBench to be the next generation of code-based research benchmark.
- Abstract(参考訳): AIエージェントは仮説形成、実験設計、コーディング、実行、分析を自動化することで科学的な発見を加速するが、既存のベンチマークは、単純化された設定で狭いスキルを探索する。
このギャップに対処するため,大規模言語モデル(LLM)研究を行うエージェントの現実的エンドツーエンド評価のためのベンチマークプラットフォームであるInnovatorBenchを紹介した。
データ構築、フィルタリング、拡張、ロスデザイン、リワードデザイン、スキャッフルドコンストラクションにまたがる20のタスクで構成されており、実行可能なアーティファクトと、正確性、パフォーマンス、出力品質、不確実性の評価を必要とする。
エージェント操作を支援するため,ResearchGymを開発した。ResearchGymは,リッチなアクション空間,分散および長期実行,非同期監視,スナップショット保存を提供する研究環境である。
また、Claude-4, GPT-5, GLM-4.5, Kimi-K2といったフロンティアモデルを用いて、明示的な推論と実行可能なプランニングを結合する軽量なReActエージェントを実装した。
我々の実験は、フロンティアモデルがコード駆動型研究タスクにおいて有望であることを示す一方で、脆弱なアルゴリズム関連タスクや不忍性、リソース管理の貧弱、テンプレートベースの推論への過度な依存といった長期的意思決定に苦慮していることを示している。
さらに、エージェントはInnovatorBenchで最高のパフォーマンスを達成するのに11時間以上かかり、ベンチマークの難しさと、InnovatorBenchが次世代のコードベースの研究ベンチマークになる可能性を示している。
関連論文リスト
- Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。