論文の概要: Subgoal Graph-Augmented Planning for LLM-Guided Open-World Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.20993v1
- Date: Wed, 26 Nov 2025 02:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.931332
- Title: Subgoal Graph-Augmented Planning for LLM-Guided Open-World Reinforcement Learning
- Title(参考訳): LLM-Guided Open-World Reinforcement Learningのための部分グラフ強化計画
- Authors: Shanwei Fan,
- Abstract要約: 大規模言語モデル(LLM)は強化学習に強力な高レベル計画機能を提供する。
LLMは、セマンティックに妥当なサブゴールを生成するが、ターゲット環境では不可能または無関係である。
LLMの計画は自己検証と融合し、自信過剰で信頼性の低いサブゴールとなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) offer strong high-level planning capabilities for reinforcement learning (RL) by decomposing tasks into subgoals. However, their practical utility is limited by poor planning-execution alignment, which reflects a critical gap between abstract plans and actionable, environment-compatible behaviors. This misalignment arises from two interrelated limitations: (1) LLMs often produce subgoals that are semantically plausible but infeasible or irrelevant in the target environment due to insufficient grounding in environment-specific knowledge, and (2) single-LLM planning conflates generation with self-verification, resulting in overconfident yet unreliable subgoals that frequently fail during execution. To address these challenges, we propose Subgoal Graph-Augmented Actor-Critic-Refiner (SGA-ACR), a framework that integrates an environment-specific subgoal graph and structured entity knowledge with a multi-LLM planning pipeline that explicitly separates generation, critique, and refinement to produce executable and verifiable subgoals. A subgoal tracker further monitors execution progress, provides auxiliary rewards, and adaptively updates the subgoal graph to maintain alignment between plans and actions. Experimental results on 22 diverse tasks in the open-world game "Crafter" demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスクをサブゴールに分解することで強化学習(RL)のための強力な高レベル計画機能を提供する。
しかし、それらの実用性は、抽象的な計画と実行可能で環境に適合した行動の間に重要なギャップを反映する計画と実行の整合性によって制限されている。
このミスアライメントは、(1)LLMは、環境固有の知識の基盤が不十分なため、ターゲット環境において意味論的に妥当なサブゴールをしばしば生成し、(2)単一LLMプランニングは自己検証と融合し、実行中に頻繁に失敗する過信だが信頼性の低いサブゴールを生成する。
これらの課題に対処するために,環境固有のサブゴアルグラフと構造化エンティティ知識を統合するフレームワークであるSubgoal Graph-Augmented Actor-Critic-Refiner (SGA-ACR)を提案する。
サブゴールトラッカーは、さらに実行進捗を監視し、補助的な報酬を提供し、計画と行動の整合性を維持するためにサブゴールグラフを適応的に更新する。
オープンワールドゲーム「クラフト」における22種類のタスクに対する実験結果から,提案手法の有効性が示された。
関連論文リスト
- OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning [50.45036742963495]
我々は,先進的な具体的推論とタスクプランニングを可能にする,多元的多元的プランナーであるOmniEVAを紹介する。
Task-Adaptive 3D Groundingメカニズムは、様々な実施タスクに対してコンテキスト対応の3Dグラウンドを可能にする。
Embodiment-Aware Reasoningフレームワークは、タスクの目標と実施制約を推論ループに組み込む。
論文 参考訳(メタデータ) (2025-09-11T10:32:22Z) - HiPlan: Hierarchical Planning for LLM-Based Agents with Adaptive Global-Local Guidance [11.621973074884002]
HiPlanは、大規模言語モデル(LLM)ベースのエージェントのための階層的計画フレームワークである。
複雑なタスクを、一般的な方向のためのマイルストーンアクションガイドと、詳細なアクションのためのステップワイズヒントに分解する。
オフラインのフェーズでは、専門家によるデモンストレーションからマイルストーンライブラリを構築し、構造化されたエクスペリエンスの再利用を可能にします。
実行フェーズでは、過去のマイルストーンからの軌道セグメントを動的に適応してステップワイズヒントを生成する。
論文 参考訳(メタデータ) (2025-08-26T14:37:48Z) - Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。
SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-26T06:35:42Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Hierarchical and Partially Observable Goal-driven Policy Learning with
Goals Relational Graph [21.260858893505183]
目標グラフ(GRG)を用いた新しい2層階層学習手法を提案する。
我々のGRGはディリクレカテゴリーのプロセスを通じて、ゴール空間におけるすべてのゴールの根底にある関係を捉えます。
実験の結果,我々のアプローチは未発見の環境と新しい目標の両方において優れた一般化を示すことがわかった。
論文 参考訳(メタデータ) (2021-03-01T23:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。