Fugu-MT 論文翻訳(概要): Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning

論文の概要: Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning

arxiv url: http://arxiv.org/abs/2605.02168v1
Date: Mon, 04 May 2026 02:58:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:50.115988
Title: Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning
Title（参考訳）: プランナーの課題! 長期計画のための効率的で不均衡なマルチエージェント協調フレームワーク
Authors: Wenyi Wu, Sibo Zhu, Kun Zhou, Biwei Huang,
Abstract要約: 言語モデル(LM)ベースのエージェントは、自然言語命令から複雑なタスクを自動化する有望な能力を実証している。本稿では,高度意思決定のためのプランナ,タスク実行のためのアクタ,コンテキスト推論のためのメモリマネージャという,自動化を3つの役割に分解する拡張マルチエージェントフレームワークを提案する。
参考スコア（独自算出の注目度）: 32.56971325545821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language model (LM)-based agents have demonstrated promising capabilities in automating complex tasks from natural language instructions, yet they continue to struggle with long-horizon planning and reasoning. To address this, we propose an enhanced multi-agent framework that decomposes automation into three roles: a planner for high-level decision-making, an actor for task execution, and a memory manager for contextual reasoning. While this modular decomposition aligns with established design patterns, our core contribution lies in a systematic compute-allocation analysis, revealing that planning is the dominant factor influencing task performance. Execution and memory management require significantly less compute and model capacity to achieve competitive results. Building on these insights, we introduce a planner-centric reinforcement learning approach, which exclusively optimizes the planner using trajectory-level rewards from a VLM-as-judge, while freezing the other components. Extensive experiments on benchmarks spanning web navigation, OS control, and tool use demonstrate that concentrating model capacity and learning on high-level planning yields robust and compute-efficient improvements in long-horizon agent automation. Our code is publicly released.
Abstract（参考訳）: 言語モデル(LM)ベースのエージェントは、自然言語命令から複雑なタスクを自動化するという有望な能力を示したが、長期計画と推論に苦戦し続けている。そこで本稿では,自動化を高度意思決定のためのプランナ,タスク実行のためのアクタ,コンテキスト推論のためのメモリマネージャの3つの役割に分割するマルチエージェントフレームワークを提案する。このモジュラー分解は確立された設計パターンと整合するが、我々のコアコントリビューションは体系的な計算割当分析にあり、計画がタスクのパフォーマンスに影響を与える主要な要因であることを明らかにする。実行とメモリ管理は、競合する結果を得るために計算能力とモデル能力を大幅に削減する必要がある。これらの知見に基づいて、プランナー中心の強化学習手法を導入し、VLM-as-judgeからの軌道レベルの報酬を用いてプランナーを最適化し、他のコンポーネントを凍結する。 Webナビゲーション、OSコントロール、ツール使用にまたがるベンチマークに関する大規模な実験は、モデルキャパシティの集中と高レベルの計画学習が、長期エージェントの自動化において堅牢で計算効率のよい改善をもたらすことを実証している。私たちのコードは公開されています。

関連論文リスト

From Coarse to Fine: Self-Adaptive Hierarchical Planning for LLM Agents [24.79854509473032]
大規模言語モデルに基づくエージェントは、動的および多段階のタスクを解決するための強力なアプローチとして登場した。人間の計画戦略を模倣する自己適応型階層型計画機構である textbfAdaPlan-H を提案する。本手法は,計画レベルでのオーバープラン化を緩和しつつ,タスク実行の成功率を大幅に向上させる。
論文参考訳（メタデータ） (2026-04-25T07:54:23Z)
RoboAgent: Chaining Basic Capabilities for Embodied Task Planning [46.248451288196435]
本稿では,エージェントが環境から視覚的観察を取得し,与えられたタスクを達成するためのアトミックアクションを実行する,具体的タスク計画に焦点を当てる。本稿では,機能駆動型計画パイプラインであるRoboAgentを提案する。我々は,(1)専門家プランによる行動クローニング,(2)モデルで収集した軌跡を用いたDAggerトレーニング,(3)専門家ポリシーによる強化学習からなる多段階的パラダイムを用いている。
論文参考訳（メタデータ） (2026-04-09T04:01:27Z)
MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。 MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2026-02-22T01:39:16Z)
TodoEvolve: Learning to Architect Agent Planning Systems [68.48983335970901]
TodoEvolveは、タスク固有の計画を自律的に合成し、動的に修正するメタプランニングパラダイムである。 PlanFactoryは異種計画パターンの共通インターフェースを提供する。 TodoEvolveは、経済的なAPIコストとランタイムオーバーヘッドを維持しながら、慎重に設計された計画モジュールを一貫して上回っている。
論文参考訳（メタデータ） (2026-02-08T06:37:01Z)
ParaCook: On Time-Efficient Planning for Multi-Agent Systems [62.471032881396496]
大規模言語モデル(LLM)は、長期の現実世界のタスクを計画するための強力な推論能力を示す。時間効率の協調計画のためのベンチマークであるParaCookを紹介する。
論文参考訳（メタデータ） (2025-10-13T16:47:07Z)
Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents [35.79575378215309]
強化学習(RL)による推論のための大規模言語モデル(LLM)の訓練は,その問題解決能力を大幅に向上させる。 LLMエージェントの動的計画を形式化する概念的枠組みを導入し、計画にテスト時間計算をいつ割り当てるかを柔軟に決定できるようにする。 Crafter環境での実験は、このアプローチでトレーニングされた動的計画エージェントがよりサンプリング効率が高く、より複雑な目標を一貫して達成していることを示している。
論文参考訳（メタデータ） (2025-09-03T18:00:13Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
Improving Planning with Large Language Models: A Modular Agentic Architecture [6.394504490512812]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。 MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-09-30T00:10:14Z)
Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-01-30T15:04:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。