論文の概要: InnoGym: Benchmarking the Innovation Potential of AI Agents
- arxiv url: http://arxiv.org/abs/2512.01822v1
- Date: Mon, 01 Dec 2025 16:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.945312
- Title: InnoGym: Benchmarking the Innovation Potential of AI Agents
- Title(参考訳): InnoGym:AIエージェントのイノベーションの可能性のベンチマーク
- Authors: Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang,
- Abstract要約: InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。
InnoGym氏は2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
- 参考スコア(独自算出の注目度): 74.64144272881414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.
- Abstract(参考訳): LLMとエージェントは、コード生成、数学的推論、科学的発見において驚くべき進歩を遂げた。
しかし、既存のベンチマークは、ソリューションの背後にあるメソッドの多様性を見越して、主に正確性を測定する。
真のイノベーションは、正しい答えを生み出すだけでなく、アプローチの独創性にも依存します。
InnoGymは、AIエージェントのイノベーションポテンシャルを体系的に評価するために設計された、最初のベンチマークおよびフレームワークである。
InnoGym氏は2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
ベンチマークには、実世界のエンジニアリングと科学領域から、リソースフィルタリング、評価器検証、ソリューション収集を通じて標準化された18の精巧なタスクが含まれている。
さらに,再現性および長期評価のための統合実行環境であるiGymを提供する。
広範囲な実験により、一部のエージェントは新しいアプローチを創出するが、堅牢性の欠如により性能が向上することを示した。
これらの結果はクリエイティビティと有効性の間に重要なギャップを浮き彫りにしており、両方を評価するベンチマークの必要性を強調している。
関連論文リスト
- Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization [31.908590128913094]
HeuriGymは、LLM(Large Language Models)によって生成されたアルゴリズムを評価するために設計されたエージェントフレームワークである。
我々は、コンピュータシステム、ロジスティクス、生物学などの分野における9つの問題に対する9つの最先端モデルを評価し、ツールの使用、計画、適応推論における永続的な制限を明らかにした。
我々のオープンソースベンチマークは、科学・工学分野におけるLLMの開発をより効果的で現実的な問題解決に導くことを目的としています。
論文 参考訳(メタデータ) (2025-06-09T17:46:47Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Don't Bet on Luck Alone: Enhancing Behavioral Reproducibility of
Quality-Diversity Solutions in Uncertain Domains [2.639902239625779]
アーカイブ再現性向上アルゴリズム(ARIA)を紹介する。
ARIAは、アーカイブに存在するソリューションの品質を改善するプラグイン・アンド・プレイのアプローチである。
提案アルゴリズムは,任意のアーカイブの品質とディスクリプタ空間のカバレッジを少なくとも50%向上させることを示す。
論文 参考訳(メタデータ) (2023-04-07T14:45:14Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - A generalized framework for active learning reliability: survey and
benchmark [0.0]
本研究では,効果的な能動学習戦略を構築するためのモジュラーフレームワークを提案する。
信頼性ベンチマーク問題20の解決策として39の戦略を考案した。
論文 参考訳(メタデータ) (2021-06-03T09:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。