論文の概要: REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research?
- arxiv url: http://arxiv.org/abs/2507.18901v1
- Date: Fri, 25 Jul 2025 02:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.799921
- Title: REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research?
- Title(参考訳): REPRO-Bench:エージェントAIシステムは社会科学研究の再現性を評価することができるか?
- Authors: Chuxuan Hu, Liyun Zhang, Yeji Lim, Aum Wadhwani, Austin Peters, Daniel Kang,
- Abstract要約: 研究論文を再現するための既存のベンチマークは、提供されたコードとデータを使用した結果の再現のみに焦点を当てている。
本稿では112のタスクインスタンスからなるREPRO-Benchについて紹介する。
我々はREPRO-Bench上での3つの代表的AIエージェントの評価を行い、最も優れたエージェントは21.4%の精度である。
- 参考スコア(独自算出の注目度): 2.111102681327218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the reproducibility of social science papers is essential for promoting rigor in research processes, but manual assessment is costly. With recent advances in agentic AI systems (i.e., AI agents), we seek to evaluate their capability to automate this process. However, existing benchmarks for reproducing research papers (1) focus solely on reproducing results using provided code and data without assessing their consistency with the paper, (2) oversimplify real-world scenarios, and (3) lack necessary diversity in data formats and programming languages. To address these issues, we introduce REPRO-Bench, a collection of 112 task instances, each representing a social science paper with a publicly available reproduction report. The agents are tasked with assessing the reproducibility of the paper based on the original paper PDF and the corresponding reproduction package. REPRO-Bench features end-to-end evaluation tasks on the reproducibility of social science papers with complexity comparable to real-world assessments. We evaluate three representative AI agents on REPRO-Bench, with the best-performing agent achieving an accuracy of only 21.4%. Building on our empirical analysis, we develop REPRO-Agent, which improves the highest accuracy achieved by existing agents by 71%. We conclude that more advanced AI agents should be developed to automate real-world reproducibility assessment. REPRO-Bench is publicly available at https://github.com/uiuc-kang-lab/REPRO-Bench.
- Abstract(参考訳): 社会科学論文の再現性を評価することは研究プロセスの厳格化を促進するのに不可欠であるが、手作業による評価はコストがかかる。
エージェントAIシステム(AIエージェント)の最近の進歩により、我々はこのプロセスを自動化する能力を評価することを目指している。
しかし,研究論文を再現するための既存のベンチマークでは,(1)論文との整合性を評価することなく提供されたコードとデータを用いた結果の再現にのみ焦点を合わせ,(2)現実のシナリオを単純化し,(3)データ形式やプログラミング言語の多様性が欠如している。
これらの課題に対処するために,112のタスクインスタンスからなるREPRO-Benchを紹介した。
原紙PDFと対応する複製パッケージに基づいて、紙の再現性を評価する。
REPRO-Benchは、現実のアセスメントに匹敵する複雑さを持つ社会科学論文の再現性に関するエンドツーエンド評価タスクを特徴としている。
我々はREPRO-Bench上での3つの代表的AIエージェントの評価を行い、最も優れたエージェントは21.4%の精度である。
実験分析に基づいてREPRO-Agentを開発し,既存のエージェントの精度を71%向上させる。
我々は、現実世界の再現性評価を自動化するために、より高度なAIエージェントを開発するべきであると結論付けている。
REPRO-Benchはhttps://github.com/uiuc-kang-lab/REPRO-Benchで公開されている。
関連論文リスト
- Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - RExBench: Can coding agents autonomously implement AI research extensions? [14.147417159347448]
LLM(Large Language Models)に基づくエージェントは、高度なソフトウェアエンジニアリングタスクを自律的に実行することを約束している。
研究拡張とその実装は,このようなシステムにとって重要な能力である,と我々は主張する。
この機能の評価をサポートするために、RExBenchを導入します。
論文 参考訳(メタデータ) (2025-06-27T19:41:41Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。
エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (2025-04-02T15:55:24Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - System for systematic literature review using multiple AI agents:
Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。
関連する学術論文を検索するために使用される検索文字列を生成する。
モデルはこれらの論文の要約を自律的に要約する。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。