論文の概要: AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
- arxiv url: http://arxiv.org/abs/2510.21652v1
- Date: Fri, 24 Oct 2025 17:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.551349
- Title: AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
- Title(参考訳): AstaBench: 科学研究スイートによるAIエージェントの厳格なベンチマーク
- Authors: Jonathan Bragg, Mike D'Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades, Stefan Candra, Jason Dunkelberger, Dan Emery, Rob Evans, Malachi Hamada, Regan Huff, Rodney Kinney, Matt Latzke, Jaron Lochner, Ruben Lozano-Aguilera, Cecile Nguyen, Smita Rao, Amber Tanaka, Brooke Vlahos, Peter Clark, Doug Downey, Yoav Goldberg, Ashish Sabharwal, Daniel S. Weld,
- Abstract要約: 本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
- 参考スコア(独自算出の注目度): 75.58737079136942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents hold the potential to revolutionize scientific productivity by automating literature reviews, replicating experiments, analyzing data, and even proposing new directions of inquiry; indeed, there are now many such agents, ranging from general-purpose "deep research" systems to specialized science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of these agents is critical for progress. Yet existing benchmarks fall short on several fronts: they (1) fail to provide holistic, product-informed measures of real-world use cases such as science research; (2) lack reproducible agent tools necessary for a controlled comparison of core agentic capabilities; (3) do not account for confounding variables such as model cost and tool access; (4) do not provide standardized interfaces for quick agent prototyping and evaluation; and (5) lack comprehensive baseline agents necessary to identify true advances. In response, we define principles and tooling for more rigorously benchmarking agents. Using these, we present AstaBench, a suite that provides the first holistic measure of agentic ability to perform scientific research, comprising 2400+ problems spanning the entire scientific discovery process and multiple scientific domains, and including many problems inspired by actual user requests to deployed Asta agents. Our suite comes with the first scientific research environment with production-grade search tools that enable controlled, reproducible evaluation, better accounting for confounders. Alongside, we provide a comprehensive suite of nine science-optimized classes of Asta agents and numerous baselines. Our extensive evaluation of 57 agents across 22 agent classes reveals several interesting findings, most importantly that despite meaningful progress on certain individual aspects, AI remains far from solving the challenge of science research assistance.
- Abstract(参考訳): AIエージェントは、文献レビューの自動化、実験の複製、データ分析、新たな調査方向の提案などによって、科学的生産性に革命をもたらす可能性を秘めている。
これらの薬剤の厳密な評価は進歩に不可欠である。
しかし,既存のベンチマークでは,(1)科学研究などの実世界のユースケースの総合的・製品インフォームド尺度の提供に失敗し,(2)コアエージェント能力の制御比較に必要な再現性のあるエージェントツールの欠如,(3)モデルコストやツールアクセスなどのコンバウンド変数を考慮せず,(4)クイックエージェントのプロトタイピングと評価のための標準化されたインターフェースを提供していない,(5)真の進歩を特定するために必要な包括的なベースラインエージェントの欠如など,いくつかの面で不足している。
これに対し、より厳密なベンチマークエージェントの原則とツーリングを定義します。
これらを用いて、AstaBenchは、科学的な研究を行うためのエージェント能力の最初の総合的な尺度を提供するスイートであり、科学的な発見プロセス全体と複数の科学領域にまたがる2400以上の問題を含み、Astaエージェントをデプロイする実際のユーザ要求に触発された多くの問題を含む。
私たちのスイートには、制御され再現可能な評価、共同設立者へのより良い説明を可能にする、生産レベルの検索ツールを備えた、最初の科学研究環境が付属しています。
同時に、Astaエージェントの9つの科学最適化クラスと多数のベースラインからなる包括的スイートを提供する。
22のエージェントクラスにわたる57のエージェントを広範囲に評価した結果、いくつかの興味深い発見が明らかになった。
関連論文リスト
- FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth [43.606494515048524]
大規模言語モデル(LLM)は、自動機械学習研究エージェントへの関心が高まっている。
既存のベンチマークは、学術的な厳格さを無視しながら、エンジニアリングの側面を過度に強調する傾向がある。
FML-benchは、機械学習の自動研究エージェントを、多種多様な8つの基礎的な機械学習研究問題に対して評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-12T06:41:05Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents [11.74019905854637]
大規模言語モデル(LLM)は、重要なタスクを自動化する科学的エージェントへと進化している。
汎用LLMとは異なり、特殊エージェントはドメイン固有の知識、高度なツールセット、堅牢な検証メカニズムを統合する。
一般的なエージェントと異なる理由と、さまざまな科学分野の研究を進める方法を強調します。
論文 参考訳(メタデータ) (2025-03-31T13:11:28Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。