論文の概要: A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
- arxiv url: http://arxiv.org/abs/2510.05608v1
- Date: Tue, 07 Oct 2025 06:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.124032
- Title: A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
- Title(参考訳): 計画のないゴールは、ただのウィッシュ:長距離エージェントタスクのための効率的で効果的なグローバルプランナートレーニング
- Authors: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun,
- Abstract要約: 大規模言語モデル(LLM)に基づくエージェントは、長期的タスクにおけるグローバルな計画の欠如により、脳の無い試行錯誤と幻覚行動を引き起こす。
計画実行フレームワークを導入し,人的努力を伴わずに実行エージェントの計画能力を高めるためのプランナー訓練手法を提案する。
実験の結果,我々のプランナーを組み込んだ実行エージェントは既存の手法よりも優れており,新たな最先端性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 66.86312354478478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents based on large language models (LLMs) struggle with brainless trial-and-error and generating hallucinatory actions due to a lack of global planning in long-horizon tasks. In this paper, we introduce a plan-and-execute framework and propose EAGLET, an efficient and effective planner training method to enhance the executor agent's planning abilities without human effort. Specifically, we train a plug-and-play global planner through a two-step process: we first synthesize high-quality plans from an advanced LLM using our proposed homologous consensus filtering strategy, and apply fine-tuning as a cold start. Moreover, we further improve the planner with a rule-based reinforcement learning stage using a novel executor capability gain reward, ensuring it can handle task instructions of varying difficulty. Experiments on three long-horizon agent tasks show that executor agents equipped with our planner outperform existing methods, achieving new state-of-the-art performance. Meanwhile, EAGLET reduces training costs by 8x compared to RL-based baselines, and it does not require manual effort or extra training data, offering an efficient and effective solution.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくエージェントは、長期的タスクにおけるグローバルな計画の欠如により、脳の無い試行錯誤と幻覚行動を引き起こす。
本稿では,計画と実行の枠組みを導入し,人的努力を伴わずに実行者エージェントの計画能力を高めるための効率的かつ効果的なプランナー訓練手法EAGLETを提案する。
具体的には、プラグアンドプレイのグローバルプランナーを2段階のプロセスで訓練し、提案したホモロジーコンセンサスフィルタリング戦略を用いて、先進的なLCMから高品質なプランを合成し、コールドスタートとして微調整を適用する。
さらに、新しい実行能力ゲイン報酬を用いてルールに基づく強化学習段階によりプランナーをさらに改善し、様々な困難を伴うタスク命令を扱えるようにした。
3つの長期エージェントタスクの実験により、我々のプランナーを備えた実行エージェントが既存の手法より優れており、新しい最先端のパフォーマンスを実現していることが示された。
一方、EAGLETはRLベースのベースラインに比べてトレーニングコストを8倍に削減し、手作業や追加のトレーニングデータを必要としないため、効率的で効果的なソリューションを提供する。
関連論文リスト
- Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents [35.79575378215309]
強化学習(RL)による推論のための大規模言語モデル(LLM)の訓練は,その問題解決能力を大幅に向上させる。
LLMエージェントの動的計画を形式化する概念的枠組みを導入し、計画にテスト時間計算をいつ割り当てるかを柔軟に決定できるようにする。
Crafter環境での実験は、このアプローチでトレーニングされた動的計画エージェントがよりサンプリング効率が高く、より複雑な目標を一貫して達成していることを示している。
論文 参考訳(メタデータ) (2025-09-03T18:00:13Z) - World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。
人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。
提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-13T15:49:56Z) - Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。
Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。
We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文 参考訳(メタデータ) (2025-03-12T17:40:52Z) - Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。