論文の概要: ARA: Agentic Reproducibility Assessment For Scalable Support Of Scientific Peer-Review
- arxiv url: http://arxiv.org/abs/2605.02651v1
- Date: Mon, 04 May 2026 14:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.337657
- Title: ARA: Agentic Reproducibility Assessment For Scalable Support Of Scientific Peer-Review
- Title(参考訳): ARA:Scientific Peer-Reviewのスケーラブルなサポートのためのエージェント再現性評価
- Authors: Kevin Riehl, Andres L. Marin, Nikofors Zacharof, Fan Wu, Patrick Langer, Robert Jakob, Anastasios Kouvelas, Georgios Fontaras, Michail A. Makridis,
- Abstract要約: エージェント・リプロデューサビリティ・アセスメント(ARA: Agentic Reproducibility Assessment)は、科学的文書よりも構造化された推論タスクとしてアセスメントを定式化する。
ある論文が与えられたら、ARAは、ソース、メソッド、実験、出力をリンクする有向グラフを抽出し、その再構成可能性を評価する。
ARAは3つのベンチマークで61%の精度を達成しており、ReproBenchとGoldStandardDBで報告された最も高い精度である。
- 参考スコア(独自算出の注目度): 10.258519605411772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific peer review increasingly struggles to assess reproducibility at the scale and complexity of modern research output. Evaluating reproducibility requires reconstructing experimental dependencies, methodological choices, data flows, and result-generating procedures, which often exceeds what human reviewers can provide. Agentic Reproducibility Assessment (ARA) formalizes reproducibility assessment as a structured reasoning task over scientific documents. Given a paper, ARA extracts a directed workflow graph linking sources, methods, experiments, and outputs, then evaluates its reconstructability using structural and content-based scores for reproducibility assessments. Experiments on 213 ReScience C articles - the largest cross-domain benchmark of human-validated computational reproducibility studies considered to date - demonstrate ARA's generalizability and consistent workflow reconstruction and assessment across LLMs, model temperatures, and scientific domains. ARA achieves ~61% accuracy on three benchmarks, and the highest accuracy reported on ReproBench (60.71% vs. 36.84%) and GoldStandardDB (61.68% vs. 43.56%), highlighting its potential to complement human review at scale and enabling next-generation peer review. Code and Data available: https://github.com/AndresLaverdeMarin/agentic_reproducibility_assessment.
- Abstract(参考訳): 科学的ピアレビューは、現代の研究成果の規模と複雑さで再現性を評価するのにますます苦労している。
再現性を評価するには、実験的な依存関係、方法論的な選択、データフロー、結果生成手順を再構築する必要がある。
エージェント・リプロデューサビリティ・アセスメント(ARA)は、科学的文書よりも構造化された推論タスクとして再現性アセスメントを形式化する。
ARAは、ソース、メソッド、実験、アウトプットをリンクするワークフローグラフを有向的に抽出し、再現性評価のために構造的およびコンテンツに基づくスコアを用いて再構成性を評価する。
213 ReScience C の記事(人間検証された計算再現性研究の最大のクロスドメインベンチマーク)の実験は、ARA の一般化可能性と一貫したワークフローの再構築と LLM 、モデル温度、科学領域における評価を実証している。
ARAは3つのベンチマークで約61%の精度を達成し、ReproBench(60.71%対36.84%)とGoldStandardDB(61.68%対43.56%)で報告された最も高い精度は、人間のレビューを大規模に補完し、次世代のピアレビューを可能にする可能性を強調している。
コードとデータ:https://github.com/AndresLaverdeMarin/agentic_reproducibility_assesment。
関連論文リスト
- PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers [33.12402746591649]
PaperReproは、自動評価のための新しい2段階のマルチエージェントアプローチである。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階では、エージェントは明確な証拠を用いてエージェントを評価する。
論文 参考訳(メタデータ) (2026-02-10T09:04:59Z) - The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - Assessing Reproducibility in Evolutionary Computation: A Case Study using Human- and LLM-based Assessment [2.0365636651755263]
本稿では,10年間にわたる進化計算会議(Evolutionary Computation Conference)のY Combinatorial Optimization and Metaheuristics Trackで発表された論文の実践について検討する。
構造化チェックリストを導入し、選択したコーパスの体系的手動評価を通じて適用する。
さらに,紙テキストや関連コードからの信号を自動的に評価するシステムであるRECAP(REproducibility Checklist Automation Pipeline)を提案する。
論文 参考訳(メタデータ) (2026-02-05T08:32:29Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - ReviewRL: Towards Automated Scientific Review with RL [16.43785996852824]
既存の自動レビューアプローチは、事実の正確性、評価の一貫性、分析の深さに苦慮している。
本稿では,総合的かつ現実的な科学的論文レビューを生成するための強化学習フレームワークであるReviewRLを紹介する。
提案手法は,(1)関連する科学的文献を取り入れたArXiv-MCP検索拡張コンテキスト生成パイプライン,(2)基礎的レビュー機能を確立する教師付き微調整,(3)複合報酬機能を備えた強化学習手法を組み合わせたものである。
論文 参考訳(メタデータ) (2025-08-14T03:26:13Z) - QRA++: Quantified Reproducibility Assessment for Common Types of Results in Natural Language Processing [6.653947064461629]
QRA++は3段階の粒度で連続的な評価の度合いを生成する定量的な評価手法である。
比較実験の3つの例にQRA++を適用して説明する。
論文 参考訳(メタデータ) (2025-05-13T13:04:04Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。