論文の概要: AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage
- arxiv url: http://arxiv.org/abs/2505.20662v2
- Date: Fri, 30 May 2025 03:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.105734
- Title: AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage
- Title(参考訳): AutoReproduce: 紙の線でAI実験を自動再現する
- Authors: Xuanle Zhao, Zilin Sang, Yuxuan Li, Qi Shi, Weilun Zhao, Shuo Wang, Duzhen Zhang, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
- 参考スコア(独自算出の注目度): 62.049868205196425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient experiment reproduction is critical to accelerating progress in artificial intelligence. However, the inherent complexity of method design and training procedures presents substantial challenges for automation. Notably, reproducing experiments often requires implicit domain-specific knowledge not explicitly documented in the original papers. To address this, we introduce the paper lineage algorithm, which identifies and extracts implicit knowledge from the relevant references cited by the target paper. Building on this idea, we propose AutoReproduce, a multi-agent framework capable of automatically reproducing experiments described in research papers in an end-to-end manner. AutoReproduce enhances code executability by generating unit tests alongside the reproduction process. To evaluate the reproduction capability, we construct ReproduceBench, a benchmark annotated with verified implementations, and introduce novel evaluation metrics to assess both the reproduction and execution fidelity. Experimental results demonstrate that AutoReproduce outperforms the existing strong agent baselines on all five evaluation metrics by a peak margin of over $70\%$. In particular, compared to the official implementations, AutoReproduce achieves an average performance gap of $22.1\%$ on $89.74\%$ of the executable experiment runs. The code will be available at https://github.com/AI9Stars/AutoReproduce.
- Abstract(参考訳): 効率的な実験再現は、人工知能の進歩を加速するために重要である。
しかしながら、メソッド設計とトレーニング手順の本質的な複雑さは、自動化に重大な課題をもたらします。
特に、再現実験は、しばしば、元の論文に明示的に文書化されていない暗黙のドメイン固有の知識を必要とする。
そこで本稿では,対象論文の引用する関連資料から暗黙的知識を識別し,抽出する論文系統アルゴリズムを提案する。
このアイデアに基づいて,研究論文に記載された実験をエンドツーエンドで自動再生できるマルチエージェントフレームワークであるAutoReproduceを提案する。
AutoReproduceは、再生プロセスと並行してユニットテストを生成することで、コードの実行可能性を高める。
再生能力を評価するために,検証済みのベンチマークであるReproduceBenchを構築し,再現性と実行性の両方を評価するための新しい評価指標を提案する。
実験の結果、AutoReproduceは既存の強力なエージェントベースラインを5つの評価指標すべてで70 %以上のピークマージンで上回ります。
特に、公式実装と比較して、AutoReproduceは平均的なパフォーマンスギャップを$2.1\%で達成し、実行可能な実験の実行は$89.74\%である。
コードはhttps://github.com/AI9Stars/AutoReproduce.comから入手できる。
関連論文リスト
- Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。
PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。
次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文 参考訳(メタデータ) (2025-04-24T01:57:01Z) - PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。
エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (2025-04-02T15:55:24Z) - RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。
モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。
6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文 参考訳(メタデータ) (2024-08-07T03:06:57Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - SIERRA: A Modular Framework for Research Automation and Reproducibility [6.1678491628787455]
本稿では,研究の加速と成果向上のための新しいフレームワークであるSIERRAを紹介する。
SIERRAは、独立変数上のクエリから実行可能な実験を生成するプロセスを自動化することで研究を加速する。
個々の研究者のニーズに応じてカスタマイズと拡張が容易なモジュラーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2022-08-16T15:36:34Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。