論文の概要: Data-Efficient Hierarchical Goal-Conditioned Reinforcement Learning via Normalizing Flows
- arxiv url: http://arxiv.org/abs/2602.11142v1
- Date: Wed, 11 Feb 2026 18:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.343654
- Title: Data-Efficient Hierarchical Goal-Conditioned Reinforcement Learning via Normalizing Flows
- Title(参考訳): 正規化フローによるデータ効率の良い階層型ゴールコンディション強化学習
- Authors: Shaswat Garg, Matin Moezzi, Brandon Da Silva,
- Abstract要約: フローベース階層型暗黙Q-ラーニング(NF-HIQL)の標準化
実数値非体積保存(RealNVP)ポリシーに対する明示的なKL分割境界を含む新しい理論的保証が導出される。
NF-HIQLは、ゴール条件付きおよび階層的なベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical goal-conditioned reinforcement learning (H-GCRL) provides a powerful framework for tackling complex, long-horizon tasks by decomposing them into structured subgoals. However, its practical adoption is hindered by poor data efficiency and limited policy expressivity, especially in offline or data-scarce regimes. In this work, Normalizing flow-based hierarchical implicit Q-learning (NF-HIQL), a novel framework that replaces unimodal gaussian policies with expressive normalizing flow policies at both the high- and low-levels of the hierarchy is introduced. This design enables tractable log-likelihood computation, efficient sampling, and the ability to model rich multimodal behaviors. New theoretical guarantees are derived, including explicit KL-divergence bounds for Real-valued non-volume preserving (RealNVP) policies and PAC-style sample efficiency results, showing that NF-HIQL preserves stability while improving generalization. Empirically, NF-HIQL is evaluted across diverse long-horizon tasks in locomotion, ball-dribbling, and multi-step manipulation from OGBench. NF-HIQL consistently outperforms prior goal-conditioned and hierarchical baselines, demonstrating superior robustness under limited data and highlighting the potential of flow-based architectures for scalable, data-efficient hierarchical reinforcement learning.
- Abstract(参考訳): 階層的目標条件強化学習(H-GCRL)は、それらを構造化されたサブゴールに分解することで、複雑な長距離タスクに対処するための強力なフレームワークを提供する。
しかし、その実践的採用は、特にオフラインまたはデータスカース体制において、データ効率の低下と限られたポリシー表現によって妨げられている。
本研究では,フローベース階層型暗黙的Q-ラーニング(NF-HIQL)の標準化について述べる。
この設計により、トラクタブルなログライクな計算、効率的なサンプリング、リッチなマルチモーダルな振る舞いをモデル化できる。
実数値保存(Real-valued Non-volume Preserving, RealNVP)ポリシーとPACスタイルのサンプル効率結果に対する明示的なKL偏差境界を含む新たな理論的保証が導出され、NF-HIQLは一般化を改善しつつ安定性を保っていることが示されている。
経験的に、NF-HIQLは、OGBenchからの移動、ボールドリブル、マルチステップ操作において様々な長距離タスクで評価される。
NF-HIQLは、目標条件付きおよび階層的ベースラインを一貫して上回り、限られたデータの下で優れた堅牢性を示し、スケーラブルでデータ効率のよい階層的強化学習のためのフローベースアーキテクチャの可能性を強調している。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals [12.894271401094615]
HRLの重要な課題は、低レベルの政策が時間とともに変化し、高レベルの政策が効果的なサブゴールを生成するのが難しくなることである。
本稿では,ガウス過程(GP)によって正規化された条件拡散モデルを訓練して,複雑なサブゴールを生成する手法を提案する。
この枠組みに基づいて,拡散政策とGPの予測平均からサブゴールを選択する戦略を開発する。
論文 参考訳(メタデータ) (2025-05-27T20:38:44Z) - Flattening Hierarchies with Policy Bootstrapping [5.528896840956629]
本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-20T23:31:30Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Adjacency constraint for efficient hierarchical reinforcement learning [25.15808501708926]
目標条件強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間が大きいため、トレーニングの非効率さに悩まされることが多い。
本研究では,高レベル動作空間を現在の状態の隣接する領域$k$-stepに制限することにより,この問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2021-10-30T09:26:45Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。