論文の概要: Chain-of-Goals Hierarchical Policy for Long-Horizon Offline Goal-Conditioned RL
- arxiv url: http://arxiv.org/abs/2602.03389v1
- Date: Tue, 03 Feb 2026 11:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.407838
- Title: Chain-of-Goals Hierarchical Policy for Long-Horizon Offline Goal-Conditioned RL
- Title(参考訳): 長軸オフラインゴールコンディションRLのチェーン・オブ・ゴール階層的政策
- Authors: Jinwoo Choi, Sang-Hyun Lee, Seung-Woo Seo,
- Abstract要約: 本稿では,自己回帰シーケンスモデルとして階層的意思決定を再構築する新しい枠組みを提案する。
CoGHPは、強いオフラインベースラインを一貫して上回り、長期タスクのパフォーマンスを改善している。
- 参考スコア(独自算出の注目度): 25.40364932514488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline goal-conditioned reinforcement learning remains challenging for long-horizon tasks. While hierarchical approaches mitigate this issue by decomposing tasks, most existing methods rely on separate high- and low-level networks and generate only a single intermediate subgoal, making them inadequate for complex tasks that require coordinating multiple intermediate decisions. To address this limitation, we draw inspiration from the chain-of-thought paradigm and propose the Chain-of-Goals Hierarchical Policy (CoGHP), a novel framework that reformulates hierarchical decision-making as autoregressive sequence modeling within a unified architecture. Given a state and a final goal, CoGHP autoregressively generates a sequence of latent subgoals followed by the primitive action, where each latent subgoal acts as a reasoning step that conditions subsequent predictions. To implement this efficiently, we pioneer the use of an MLP-Mixer backbone, which supports cross-token communication and captures structural relationships among state, goal, latent subgoals, and action. Across challenging navigation and manipulation benchmarks, CoGHP consistently outperforms strong offline baselines, demonstrating improved performance on long-horizon tasks.
- Abstract(参考訳): オフラインの目標条件付き強化学習は、長期的なタスクでは依然として困難である。
階層的手法はタスクを分解することでこの問題を緩和するが、既存の手法の多くはハイレベルネットワークと低レベルネットワークを分離し、1つの中間部分ゴールしか生成しないため、複数の中間決定をコーディネートする必要のある複雑なタスクには不適当である。
この制限に対処するため,我々はチェーン・オブ・思想パラダイムからインスピレーションを得て,階層的意思決定を自己回帰的シーケンス・モデリングとして統一アーキテクチャ内で再構築する新しいフレームワークであるChain-of-Goals Hierarchical Policy (CoGHP)を提案する。
状態と最終ゴールが与えられた場合、CoGHPは遅延サブゴールの列を自己回帰的に生成し、その後に原始的なアクションが続き、各潜在サブゴールはその後の予測を条件付ける推論ステップとして機能する。
これを効率的に実装するために、我々は、クロストークン通信をサポートし、状態、ゴール、潜在サブゴール、アクション間の構造的関係をキャプチャするMLP-Mixerバックボーンの使用を開拓した。
困難なナビゲーションと操作ベンチマーク全体において、CoGHPは強いオフラインベースラインを一貫して上回り、長期タスクのパフォーマンスが向上している。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - ReCAP: Recursive Context-Aware Reasoning and Planning for Large Language Model Agents [61.51091799997476]
ReCAP(Recursive Context-Aware Reasoning and Planning)は,大規模言語モデル(LLM)における推論と計画のためのコンテキストを共有する階層型フレームワークである。
ReCAPは、プラン-アヘッド分解、親プランの構造化された再注入、メモリ効率の高い実行という3つの重要なメカニズムを組み合わせる。
実験により、ReCAPは様々なロングホライゾン推論ベンチマークにおけるサブゴールアライメントと成功率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T20:03:55Z) - Reinforcement Learning with Anticipation: A Hierarchical Approach for Long-Horizon Tasks [3.79187263097166]
長期の目標条件付きタスクの解決は、強化学習において重要な課題である。
Reinforcement Learning with Precipation(RLA)は、これらの制限に対処するために設計された、原則付き、潜在的にスケーラブルなフレームワークです。
RLAの主な特徴は予測モデルのトレーニングであり、これは値の幾何的一貫性の原則によって導かれる。
論文 参考訳(メタデータ) (2025-09-06T00:10:15Z) - Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。
SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-26T06:35:42Z) - Flattening Hierarchies with Policy Bootstrapping [5.528896840956629]
本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-20T23:31:30Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。