論文の概要: Evolving and Executing Research Plans via Double-Loop Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2510.06761v1
- Date: Wed, 08 Oct 2025 08:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.369883
- Title: Evolving and Executing Research Plans via Double-Loop Multi-Agent Collaboration
- Title(参考訳): ダブルループ多エージェントコラボレーションによる研究計画の展開と実行
- Authors: Zhi Zhang, Yan Liu, Zhejing Hu, Gong Chen, Sheng-hua Zhong, Jiannong Cao,
- Abstract要約: 本稿では, 与えられた研究課題を自動的に解決する新しいDouble-Loop Multi-Agent (DLMA) フレームワークを提案する。
リーダーループは教授エージェントで構成され、研究計画の進化に責任がある。
博士課程の学生エージェントで構成される従者ループは、最も進化した計画を実行する責任がある。
- 参考スコア(独自算出の注目度): 27.238993026036354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating the end-to-end scientific research process poses a fundamental challenge: it requires both evolving high-level plans that are novel and sound, and executing these plans correctly amidst dynamic and uncertain conditions. To address this bilevel challenge, we propose a novel Double-Loop Multi-Agent (DLMA) framework to solve the given research problem automatically. The leader loop, composed of professor agents, is responsible for evolving research plans. It employs an evolutionary algorithm through involvement, improvement, and integration meetings to iteratively generate and refine a pool of research proposals, exploring the solution space effectively. The follower loop, composed of doctoral student agents, is responsible for executing the best-evolved plan. It dynamically adjusts the plan during implementation via pre-hoc and post-hoc meetings, ensuring each step (e.g., drafting, coding) is well-supported by contextual and external observations. Extensive experiments on benchmarks like ACLAward and Laboratory show that DLMA generates research papers that achieve state-of-the-art scores in automated evaluation, significantly outperforming strong baselines. Ablation studies confirm the critical roles of both loops, with evolution driving novelty and execution ensuring soundness.
- Abstract(参考訳): エンド・ツー・エンドの科学的研究プロセスを自動化することは根本的な課題であり、新規で健全なハイレベルな計画の進化と、動的で不確実な状況の中でこれらの計画の正しい実行の両方を必要とする。
この二段階的課題に対処するために、与えられた研究課題を自動的に解決する新しい二重ループマルチエージェント(DLMA)フレームワークを提案する。
リーダーループは教授エージェントで構成され、研究計画の進化に責任がある。
関与、改善、統合ミーティングを通じて進化的アルゴリズムを使用して、研究提案のプールを反復的に生成し、洗練し、ソリューション空間を効果的に探索する。
博士課程の学生エージェントで構成される従者ループは、最も進化した計画を実行する責任がある。
プリホックミーティングやポストホックミーティングを通じて実装中のプランを動的に調整し、各ステップ(例えば、ドラフト、コーディング)がコンテキストと外部の観察によって十分にサポートされていることを保証します。
ACLAward や Laboratory のようなベンチマークの大規模な実験は、DLMA が自動評価において最先端のスコアを達成し、強力なベースラインを著しく上回る研究論文を生成することを示している。
アブレーション研究は、進化が新鮮さを駆動し、音性を保証するために、両方のループが重要な役割を担っていることを証明している。
関連論文リスト
- RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback [76.28414843494073]
研究論文やリポジトリからの102タスクのベンチマークであるRECODE-Hを提案する。
構造化された命令、単体テスト、現実的な研究者とエージェントのコラボレーションを反映する5段階のフィードバック階層が含まれる。
フィードバックを反復的なコード生成に統合するフレームワークであるReCodeAgentも紹介します。
論文 参考訳(メタデータ) (2025-10-07T17:45:35Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - StepORLM: A Self-Evolving Framework With Generative Process Supervision For Operations Research Language Models [18.500046072165254]
我々は、生成過程を監督する新しい自己進化フレームワークであるStepORLMを紹介する。
StepORLMの中核となるのは、ポリシーモデルと生成プロセス報酬モデル(GenPRM)が相互に反復的に改善される、共進化ループである。
論文 参考訳(メタデータ) (2025-09-26T16:39:10Z) - Deep Research: A Survey of Autonomous Research Agents [33.96146020332329]
大規模言語モデル(LLM)の急速な進歩は、複雑なタスクを自律的に実行可能なエージェントシステムの開発を促している。
これらの制約を克服するため、深層研究のパラダイムが提案され、エージェントは、Webベースの証拠に根ざした包括的で忠実な分析レポートを生成するために、計画、検索、合成に積極的に従事する。
本稿では,計画,質問開発,Web探索,レポート生成の4段階からなるディープリサーチパイプラインの体系的概要について述べる。
論文 参考訳(メタデータ) (2025-08-18T09:26:14Z) - Multi-Agent Collaboration via Evolving Orchestration [61.93162413517026]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMをベースとしたマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し、中央オーケストレータがタスク状態の進化に応じてエージェントを動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents [10.86017322488788]
大規模言語モデルを用いた自律型機械学習研究(MLR-Copilot)を提案する。
大規模言語モデル(LLM)エージェントを用いた研究アイデアの自動生成と実装を通じて、機械学習研究の生産性を向上させるように設計されている。
我々は,5つの機械学習研究課題に関するフレームワークを評価し,研究の進展とイノベーションを促進するためのフレームワークの可能性を示す実験結果を示した。
論文 参考訳(メタデータ) (2024-08-26T05:55:48Z) - Automating Intervention Discovery from Scientific Literature: A Progressive Ontology Prompting and Dual-LLM Framework [56.858564736806414]
本稿では,大規模言語モデル(LLM)を利用した科学文献の介入の同定手法を提案する。
言語病理領域における64,177論文のコーパスから,2,421件の介入が得られた。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。