論文の概要: HiRAS: A Hierarchical Multi-Agent Framework for Paper-to-Code Generation and Execution
- arxiv url: http://arxiv.org/abs/2604.17745v2
- Date: Mon, 27 Apr 2026 03:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.886646
- Title: HiRAS: A Hierarchical Multi-Agent Framework for Paper-to-Code Generation and Execution
- Title(参考訳): HiRAS:Paper-to-Code生成と実行のための階層的マルチエージェントフレームワーク
- Authors: Hanhua Hong, Yizhi LI, Jiaoyan Chen, Sophia Ananiadou, Xiaoli Li, Jung-jae Kim, Chenghua Lin,
- Abstract要約: 階層型リサーチエージェントシステム(HiRAS)は、エンドツーエンドの実験再生のための階層型マルチエージェントフレームワークである。
HiRASは監督管理エージェントを使用して、きめ細かい段階にわたって専門エージェントを調整している。
- 参考スコア(独自算出の注目度): 41.22400989548889
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models have highlighted their potential to automate computational research, particularly reproducing experimental results. However, existing approaches still use fixed sequential agent pipelines with weak global coordination, which limits their robustness and overall performance. In this work, we propose Hierarchical Research Agent System (HiRAS), a hierarchical multi-agent framework for end-to-end experiment reproduction that employs supervisory manager agents to coordinate specialised agents across fine-grained stages. We also identify limitations in the reference-free evaluation of the Paper2Code benchmark and introduce Paper2Code-Extra (P2C-Ex), a refined protocol that incorporates repository-level information and better aligns with the original reference-based metric. We conduct extensive evaluation, validating the effectiveness and robustness of our proposed methods, and observing improvements, including >10\% relative performance gain beyond the previous state-of-the-art using open-source backbone models and significantly reduced hallucination in evaluation. Our work is available on GitHub: https://github.com/KOU-199024/HiRAS.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、計算研究の自動化、特に実験結果の再現の可能性を強調している。
しかし、既存のアプローチでは、固定されたシーケンシャルなエージェントパイプラインを使用しており、グローバルな調整が弱いため、ロバスト性や全体的なパフォーマンスが制限されている。
本研究では, 階層型多エージェントシステム (HiRAS) を提案する。これは, 管理者エージェントを駆使して, きめ細かい段階にわたる特殊エージェントの調整を行う, エンドツーエンド実験再生のための階層型多エージェントフレームワークである。
また,Paper2Codeベンチマークの参照不要評価の限界を特定し,レポジトリレベル情報を組み込んだ拡張プロトコルであるPaper2Code-Extra(P2C-Ex)を導入する。
提案手法の有効性とロバスト性を検証し,提案手法の有効性を検証し,オープンソースバックボーンモデルを用いた従来の最先端技術よりも10 %以上の相対的な性能向上と,評価における幻覚の顕著な低減を含む改善点を観察する。
私たちの作業はGitHubで公開されています。
関連論文リスト
- Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution [5.10403054516716]
既存のデータセットは、分離された単一のプルリクエスト(PR)タスクのパフォーマンスをステートレスな方法で評価する。
本稿では,SWE-STEPSのデータセット生成を支援する自動コーディングタスク生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-03T13:44:40Z) - An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents [0.7496422063843831]
我々は、ベンチマークデータセットであるCR-Benchと、コードレビューエージェントのためのきめ細かい評価パイプラインであるCR-Evaluatorを紹介する。
コードレビューエージェントは、隠されたすべての問題を特定するために設計された場合、低信号対雑音比を示すことができる。
本分析では,課題解決と突発的な発見との間に隠されたトレードオフを明らかにし,効果的なエージェント設計を制約するフロンティアを明らかにした。
論文 参考訳(メタデータ) (2026-03-10T21:29:42Z) - Enhancing Automated Paper Reproduction via Prompt-Free Collaborative Agents [8.185402940269794]
本稿では,コード生成の品質を自動的に向上する,プロンプトフリーな協調エージェントフレームワークを提案する。
提案手法では,各ステップの出力が対応するシステムプロンプトに規定された要求を満たすかどうかを検証する検証エージェントと,識別された問題に基づいて出力を更新する精査エージェントの2つを用いている。
論文 参考訳(メタデータ) (2025-12-02T14:24:23Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。