論文の概要: Enhancing Automated Paper Reproduction via Prompt-Free Collaborative Agents
- arxiv url: http://arxiv.org/abs/2512.02812v1
- Date: Tue, 02 Dec 2025 14:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.919104
- Title: Enhancing Automated Paper Reproduction via Prompt-Free Collaborative Agents
- Title(参考訳): プロンプトフリー・コラボレーティブ・エージェントによる自動紙再生の促進
- Authors: Zijie Lin, Qilin Cai, Liang Shen, Mingjun Xiao,
- Abstract要約: 本稿では,コード生成の品質を自動的に向上する,プロンプトフリーな協調エージェントフレームワークを提案する。
提案手法では,各ステップの出力が対応するシステムプロンプトに規定された要求を満たすかどうかを検証する検証エージェントと,識別された問題に基づいて出力を更新する精査エージェントの2つを用いている。
- 参考スコア(独自算出の注目度): 8.185402940269794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated paper reproduction has emerged as a promising approach to accelerate scientific research, employing multi-step workflow frameworks to systematically convert academic papers into executable code. However, existing frameworks often lack mechanisms to verify and refine the outputs at each generation step, or rely heavily on manually designed prompts for self-refinement, which limits their adaptability and scalability. To address these limitations, we propose a prompt-free collaborative agent framework that automatically enhances the quality of paper-to-code generation. Our approach employs two collaborative agents: a verification agent that examines whether the outputs at each step satisfy the requirements specified in the corresponding system prompt, and a refinement agent that revises the outputs based on the identified issues. Unlike previous methods that require human experts to craft specific refinement prompts for each step, our framework achieves automatic verification and improvement by leveraging only the original system prompts. We integrate our collaborative agents into the Paper2Code framework and conduct comprehensive experiments on PaperBench Code-Dev and Paper2CodeBench datasets. Experimental results demonstrate that our approach significantly improves the accuracy and completeness of reproduced code, achieving performance gains of approximately 15\% and 13\%, respectively, compared to the baseline without our agents. Furthermore, comparative experiments against Self-Refine validate the robustness and consistency of our prompt-free approach across different datasets.
- Abstract(参考訳): 論文の自動複製は、学術論文を体系的に実行可能なコードに変換するための多段階ワークフローフレームワークを用いて、科学研究を加速するための有望なアプローチとして現れてきた。
しかしながら、既存のフレームワークには、各生成ステップでのアウトプットの検証と改善のメカニズムが欠如している場合や、手動で設計したセルフリファインメントのプロンプトに大きく依存している場合が多いため、適応性とスケーラビリティが制限される。
これらの制約に対処するために,コード生成の質を自動的に向上する,プロンプトフリーな協調エージェントフレームワークを提案する。
提案手法では,各ステップの出力が対応するシステムプロンプトに規定された要求を満たすかどうかを検証する検証エージェントと,識別された問題に基づいて出力を更新する精査エージェントの2つを用いている。
ヒトの専門家が各ステップごとに特定の改良プロンプトを作成する必要がある従来の方法とは異なり、我々のフレームワークは元のシステムプロンプトのみを活用することで自動検証と改善を実現している。
協調エージェントをPaper2Codeフレームワークに統合し、PaperBench Code-DevとPaper2CodeBenchデータセットの包括的な実験を行います。
実験の結果,提案手法は再現符号の精度と完全性を大幅に向上し,約15 %,13 %の性能向上を実現した。
さらに、Self-Refineに対する比較実験は、異なるデータセットにわたるプロンプトフリーアプローチの堅牢性と一貫性を検証する。
関連論文リスト
- Paper2SysArch: Structure-Constrained System Architecture Generation from Scientific Papers [10.395280181257737]
テキストからダイアグラムの自動生成を定量的に評価するための新しいベンチマークを導入する。
3000の研究論文とそれに対応する高品質な地上構造図を組み合わせ、三段階評価指標を伴って構成されている。
論文を構造化・編集可能な図形に変換するために,マルチエージェントコラボレーションを活用したエンドツーエンドシステムPaper2Archを提案する。
論文 参考訳(メタデータ) (2025-11-22T12:24:30Z) - Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization [86.98098988779809]
SummQは長期文書要約のための新しい逆多重エージェントフレームワークである。
提案手法では,包括的な要約を作成し,評価するために協調作業を行う要約ジェネレータとレビュアーを用いる。
広範に使用されている3つの文書要約ベンチマーク上でSummQを評価する。
論文 参考訳(メタデータ) (2025-09-25T08:36:19Z) - Reflective Paper-to-Code Reproduction Enabled by Fine-Grained Verification [46.845133190560375]
複雑なコードを効率的にデバッグするために、人間が体系的なチェックリストを使う方法に触発されて、textbfReflective Paper-to-Code textbfReproductionフレームワークである textbfReProを提案する。
紙の指紋を自動的に抽出し、高品質な監視信号として機能する、正確で原子的な基準の包括的なセットを参照する。
ベースラインよりも13.0%のパフォーマンスギャップを達成し、反射の複雑な論理的および数学的基準を正しく修正する。
論文 参考訳(メタデータ) (2025-08-21T06:57:44Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - DocAgent: A Multi-Agent System for Automated Code Documentation Generation [7.653779364214401]
本稿では、トポロジ的コード処理によるインクリメンタルコンテキスト構築のための新しいマルチエージェント協調システムDocAgentを紹介する。
特殊なエージェント(Reader、Searcher、Writer、Verifier、Orchestrator)が共同でドキュメントを生成する。
また, 完全性, ヘルプ性, 真実性を評価する多面的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-11T17:50:08Z) - CCA: Collaborative Competitive Agents for Image Editing [55.500493143796405]
本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。
複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。
この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
論文 参考訳(メタデータ) (2024-01-23T11:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。