論文の概要: ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?
- arxiv url: http://arxiv.org/abs/2510.24591v1
- Date: Tue, 28 Oct 2025 16:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.269766
- Title: ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?
- Title(参考訳): ReplicationBench: AIエージェントは天体物理学の研究論文を再現できるか?
- Authors: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca,
- Abstract要約: 本稿では、フロンティアAIエージェントの評価フレームワークであるReplicationBenchを紹介する。
天体物理学の文献から得られた研究論文全体を、エージェントが複製できるかどうかを検査する。
R ReplicationBenchは、論文スケールで専門家が検証した天体物理学の研究タスクの最初のベンチマークを確立している。
- 参考スコア(独自算出の注目度): 29.17900668495058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI agents show increasing promise as scientific research assistants, and may eventually be useful for extended, open-ended research workflows. However, in order to use agents for novel research, we must first assess the underlying faithfulness and correctness of their work. To evaluate agents as research assistants, we introduce ReplicationBench, an evaluation framework that tests whether agents can replicate entire research papers drawn from the astrophysics literature. Astrophysics, where research relies heavily on archival data and computational study while requiring little real-world experimentation, is a particularly useful testbed for AI agents in scientific research. We split each paper into tasks which require agents to replicate the paper's core contributions, including the experimental setup, derivations, data analysis, and codebase. Each task is co-developed with the original paper authors and targets a key scientific result, enabling objective evaluation of both faithfulness (adherence to original methods) and correctness (technical accuracy of results). ReplicationBench is extremely challenging for current frontier language models: even the best-performing language models score under 20%. We analyze ReplicationBench trajectories in collaboration with domain experts and find a rich, diverse set of failure modes for agents in scientific research. ReplicationBench establishes the first benchmark of paper-scale, expert-validated astrophysics research tasks, reveals insights about agent performance generalizable to other domains of data-driven science, and provides a scalable framework for measuring AI agents' reliability in scientific research.
- Abstract(参考訳): 最先端のAIエージェントは、科学研究アシスタントとして期待が高まり、最終的には、拡張されたオープンな研究ワークフローに役立ちます。
しかし, 新規研究にエージェントを利用するためには, まず, その基礎となる忠実さと正しさを評価する必要がある。
エージェントを研究助手として評価するために,エージェントが天体物理学文献から得られた研究論文全体を複製できるかどうかを検証するための評価フレームワークであるReplicationBenchを紹介する。
天体物理学は、考古学的なデータと計算的な研究に大きく依存するが、実際の実験はほとんど必要とせず、科学研究においてAIエージェントにとって特に有用なテストベッドである。
私たちは各論文を、実験的なセットアップ、導出、データ分析、コードベースなど、各論文のコアコントリビューションを複製するエージェントを必要とするタスクに分割しました。
それぞれのタスクはオリジナルの論文の著者と共同で開発され、重要な科学的成果を目標としており、忠実さ(元の手法に忠実さ)と正確さ(結果の技術的正確さ)の両方を客観的に評価することができる。
ReplicationBenchは、現在のフロンティア言語モデルにとって非常に難しい。
我々は、ドメインエキスパートと共同でReplicationBenchトラジェクトリを分析し、科学的研究におけるエージェントのためのリッチで多様な障害モードを見つける。
ReplicationBenchは、論文スケールで専門家公認の天体物理学研究タスクの最初のベンチマークを確立し、データ駆動科学の他の領域に一般化可能なエージェントパフォーマンスに関する洞察を明らかにし、科学研究におけるAIエージェントの信頼性を測定するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - PaperArena: An Evaluation Benchmark for Tool-Augmented Agentic Reasoning on Scientific Literature [11.804526152911386]
本研究では,大規模言語モデル(LLM)に基づくエージェントの評価ベンチマークであるPaperArenaを提案する。
研究上の疑問から、エージェントは推論や適切なツールとのインタラクションを通じて、複数の論文にまたがる多様なフォーマットを統合する必要がある。
実験の結果、高度に確立されたエージェントを駆動する最も先進的なLCMでさえ、平均精度は38.78%に過ぎなかった。
論文 参考訳(メタデータ) (2025-10-13T02:10:39Z) - LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation [66.09346158850308]
文献レビュープロセスをエミュレートする多エージェント協調ワークフローLiRA(Literature Review Agents)を提案する。
LiRAは、コンテンツアウトライン、サブセクションの執筆、編集、レビュー、コヒーシブで包括的なレビュー記事の作成に特殊エージェントを使用している。
実世界のシナリオにおいて文書検索を用いてLiRAを評価し,そのロバスト性を評価する。
論文 参考訳(メタデータ) (2025-10-01T12:14:28Z) - MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [70.72318131988102]
MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。
MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文 参考訳(メタデータ) (2025-05-26T13:18:37Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - Agent Laboratory: Using LLM Agents as Research Assistants [27.91786156415065]
Agent Laboratoryは、研究プロセス全体を完了できる自律的なフレームワークである。
人間が提案する研究アイデアを受け入れ、文学的レビュー、実験、レポート作成という3つの段階を進む。
エージェント・ラボラトリーは研究費を大幅に削減し、従来の自律的な研究方法に比べて84%の削減を実現している。
論文 参考訳(メタデータ) (2025-01-08T01:58:42Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。