論文の概要: An Agentic Approach Towards Replication Package Quality Evaluation
- arxiv url: http://arxiv.org/abs/2606.02006v1
- Date: Mon, 01 Jun 2026 10:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.777164
- Title: An Agentic Approach Towards Replication Package Quality Evaluation
- Title(参考訳): 複製パッケージの品質評価へのエージェント的アプローチ
- Authors: Maximilian Alexander Amougou Mbida, Florian Angermeir,
- Abstract要約: 本稿では,複製パッケージの品質評価のためのエージェント的アプローチについて検討する。
我々は34のソースから380の要件を51の基準に集約し、そのうち31は自動アーティファクトベースの評価のために運用されている。
5つの複製パッケージの予備評価は、91.4%と75.4%の高い実行間一貫性を示している。
- 参考スコア(独自算出の注目度): 1.6950215926321557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducibility in empirical software engineering relies on complete, accessible, and reusable research artifacts, yet artifact evaluation remains largely manual and difficult to scale. This emerging results paper explores an agentic approach for assessing replication package quality by translating open-science guidelines into machine-verifiable criteria. We consolidate 380 requirements from 34 sources into 51 reproducibility criteria, of which 31 are operationalized for automated artifact-based evaluation. Based on these criteria, we implement a multi-agent prototype that automatically inspects replication packages and produces evidence-grounded improvement reports. A preliminary evaluation on five replication packages shows high inter-run consistency of 91.4\% and 75.4\% correctness, through micro-averaged agreement with a manual baseline. The agent performs best on structural criteria such as code, environment, and artifact availability, but struggles with qualitative or mixed-method studies. A pilot survey with seven software engineering researchers indicates well perceived usefulness and adoption potential, while revealing cognitive load in the human-in-the-loop planning step. Overall, these emerging results indicate that agentic research artifact evaluation has the potential to support authors and reviewers by automating selected routine checks.
- Abstract(参考訳): 経験的ソフトウェア工学における再現性は、完全でアクセス可能で再利用可能な研究成果物に依存している。
本稿では,オープンサイエンスガイドラインを機械検証基準に翻訳することで,複製パッケージの品質を評価するためのエージェント的アプローチについて検討する。
我々は34のソースから380の要件を51の再現性基準に集約し、そのうち31の要件を自動アーティファクトベース評価のために運用する。
これらの基準に基づき、複製パッケージを自動的に検査し、エビデンスに基づく改善レポートを生成するマルチエージェントプロトタイプを実装した。
5つの複製パッケージの予備評価では、手動ベースラインとのマイクロ平均一致により、実行間一貫性の高い91.4\%と75.4\%の正確性を示した。
このエージェントは、コード、環境、アーティファクトの可用性といった構造的基準で最善を尽くすが、定性的または混合的な研究に苦慮する。
7人のソフトウェアエンジニアリング研究者によるパイロット調査では、人間とループの計画ステップにおける認知的負荷を明らかにしながら、有用性と採用の可能性についてよく認識されていることが示されている。
以上の結果から,エージェント研究成果評価は,選択された定期チェックを自動化して,著者やレビュアーを支援する可能性が示唆された。
関連論文リスト
- MLReplicate: Benchmarking Autonomous Research Systems for Machine Learning Reproducibility [2.2969445973129123]
我々は機械学習の自律的な研究システムを評価するエンドツーエンドのベンチマークであるMLReplicateを紹介する。
このベンチマークは、ICML 2025論文から標準化された入力仕様に改定され、6つの最先端の研究システムで評価された。
自動レビューとは対照的に、人間レビュアーは、方法論上の欠陥、幻覚的な実験結果、全てのシステムにまたがる失敗を一貫して特定した。
論文 参考訳(メタデータ) (2026-05-15T20:35:32Z) - ARA: Agentic Reproducibility Assessment For Scalable Support Of Scientific Peer-Review [10.258519605411772]
エージェント・リプロデューサビリティ・アセスメント(ARA: Agentic Reproducibility Assessment)は、科学的文書よりも構造化された推論タスクとしてアセスメントを定式化する。
ある論文が与えられたら、ARAは、ソース、メソッド、実験、出力をリンクする有向グラフを抽出し、その再構成可能性を評価する。
ARAは3つのベンチマークで61%の精度を達成しており、ReproBenchとGoldStandardDBで報告された最も高い精度である。
論文 参考訳(メタデータ) (2026-05-04T14:34:36Z) - PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers [33.12402746591649]
PaperReproは、自動評価のための新しい2段階のマルチエージェントアプローチである。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階では、エージェントは明確な証拠を用いてエージェントを評価する。
論文 参考訳(メタデータ) (2026-02-10T09:04:59Z) - The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - Assessing Reproducibility in Evolutionary Computation: A Case Study using Human- and LLM-based Assessment [2.0365636651755263]
本稿では,10年間にわたる進化計算会議(Evolutionary Computation Conference)のY Combinatorial Optimization and Metaheuristics Trackで発表された論文の実践について検討する。
構造化チェックリストを導入し、選択したコーパスの体系的手動評価を通じて適用する。
さらに,紙テキストや関連コードからの信号を自動的に評価するシステムであるRECAP(REproducibility Checklist Automation Pipeline)を提案する。
論文 参考訳(メタデータ) (2026-02-05T08:32:29Z) - An Investigation on How AI-Generated Responses Affect SoftwareEngineering Surveys [3.183470571353323]
本研究では,大規模言語モデル (LLM) がソフトウェア工学のサーベイでいかに誤用されているかを考察する。
我々は2025年にProlificプラットフォームを通じて行われた2回の調査からのデータを分析した。
ソフトウェア工学のサーベイにおいて、データの真正性は新たな妥当性の次元として認識される。
論文 参考訳(メタデータ) (2025-12-19T11:17:05Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。