論文の概要: PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers
- arxiv url: http://arxiv.org/abs/2603.00058v1
- Date: Tue, 10 Feb 2026 09:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.010887
- Title: PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers
- Title(参考訳): PaperRepro:社会科学論文における自動計算再現性評価
- Authors: Linhao Zhang, Tong Xia, Jinghua Piao, Lizhen Cui, Yong Li,
- Abstract要約: PaperReproは、自動評価のための新しい2段階のマルチエージェントアプローチである。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階では、エージェントは明確な証拠を用いてエージェントを評価する。
- 参考スコア(独自算出の注目度): 33.12402746591649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational reproducibility is essential for the credibility of scientific findings, particularly in the social sciences, where findings often inform real-world decisions. Manual reproducibility assessment is costly and time-consuming, as it is nontrivial to reproduce the reported findings using the authors' released code and data. Recent advances in large models (LMs) have inspired agent-based approaches for automated reproducibility assessment. However, existing approaches often struggle due to limited context capacity, inadequate task-specific tooling, and insufficient result capture. To address these, we propose PaperRepro, a novel two-stage, multi-agent approach that separates execution from evaluation. In the execution stage, agents execute the reproduction package and edit the code to capture reproduced results as explicit artifacts. In the evaluation stage, agents evaluate reproducibility using explicit evidence. PaperRepro assigns distinct responsibilities to agents and equips them with task-specific tools and expert prompts, mitigating context and tooling limitations. It further maximizes the LM's coding capability to enable more complete result capture for evaluation. On REPRO-Bench, a social science reproducibility assessment benchmark, PaperRepro achieves the best overall performance, with a 21.9% relative improvement in score-agreement accuracy over the strongest prior baseline. We further refine the benchmark and introduce REPRO-Bench-S, a benchmark stratified by execution difficulty for more diagnostic evaluation of automated reproducibility assessment systems. Our code and data are publicly available
- Abstract(参考訳): 計算的再現性は科学的な発見の信頼性に不可欠であり、特に社会科学では、発見が現実世界の意思決定にしばしば影響を及ぼす。
手動再現性の評価は、著者のコードとデータを使って報告された結果を再現するのは簡単ではないため、コストと時間を要する。
大規模モデル(LM)の最近の進歩は、自動再現性評価のためのエージェントベースのアプローチにインスピレーションを与えている。
しかし、既存のアプローチは、コンテキストキャパシティの制限、タスク固有のツールの不十分、結果のキャプチャが不十分なため、しばしば苦労する。
そこで我々はPaperReproを提案する。PaperReproは2段階のマルチエージェントアプローチで、実行と評価を分離する。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階において、エージェントは明確な証拠を用いて再現性を評価する。
PaperReproはエージェントに異なる責任を割り当て、タスク固有のツールや専門家のプロンプトを割り当て、コンテキストやツールの制限を緩和する。
さらに、LMのコーディング能力を最大化し、評価のためにより完全な結果キャプチャを可能にする。
社会科学再現性評価のベンチマークであるREPRO-Benchでは、PaperReproは最強のベースラインよりも21.9%のスコア獲得精度を向上し、全体的なパフォーマンスを最高のものにしている。
我々はさらにベンチマークを改良し、自動再現性評価システムのより詳細な診断評価を行うための実行困難により階層化されたベンチマークであるREPRO-Bench-Sを導入する。
私たちのコードとデータは公開されています
関連論文リスト
- Automating Computational Reproducibility in Social Science: Comparing Prompt-Based and Agent-Based Approaches [0.3637090866781549]
計算研究の再現は、提供されたデータで元のコードを再実行するのと同じくらい単純であるとしばしば考えられている。
本研究では,大規模な言語モデルとAIエージェントが,そのような障害の診断と修復を自動化できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-09T11:59:59Z) - Assessing Reproducibility in Evolutionary Computation: A Case Study using Human- and LLM-based Assessment [2.0365636651755263]
本稿では,10年間にわたる進化計算会議(Evolutionary Computation Conference)のY Combinatorial Optimization and Metaheuristics Trackで発表された論文の実践について検討する。
構造化チェックリストを導入し、選択したコーパスの体系的手動評価を通じて適用する。
さらに,紙テキストや関連コードからの信号を自動的に評価するシステムであるRECAP(REproducibility Checklist Automation Pipeline)を提案する。
論文 参考訳(メタデータ) (2026-02-05T08:32:29Z) - REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research? [2.111102681327218]
研究論文を再現するための既存のベンチマークは、提供されたコードとデータを使用した結果の再現のみに焦点を当てている。
本稿では112のタスクインスタンスからなるREPRO-Benchについて紹介する。
我々はREPRO-Bench上での3つの代表的AIエージェントの評価を行い、最も優れたエージェントは21.4%の精度である。
論文 参考訳(メタデータ) (2025-07-25T02:48:30Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。