論文の概要: Flattening Hierarchies with Policy Bootstrapping
- arxiv url: http://arxiv.org/abs/2505.14975v1
- Date: Tue, 20 May 2025 23:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.791406
- Title: Flattening Hierarchies with Policy Bootstrapping
- Title(参考訳): ポリシーブートストラップによる階層のフラット化
- Authors: John L. Zhou, Jonathan C. Kao,
- Abstract要約: 本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
- 参考スコア(独自算出の注目度): 2.3940819037450987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) is a promising approach for pretraining generalist policies on large datasets of reward-free trajectories, akin to the self-supervised objectives used to train foundation models for computer vision and natural language processing. However, scaling GCRL to longer horizons remains challenging due to the combination of sparse rewards and discounting, which obscures the comparative advantages of primitive actions with respect to distant goals. Hierarchical RL methods achieve strong empirical results on long-horizon goal-reaching tasks, but their reliance on modular, timescale-specific policies and subgoal generation introduces significant additional complexity and hinders scaling to high-dimensional goal spaces. In this work, we introduce an algorithm to train a flat (non-hierarchical) goal-conditioned policy by bootstrapping on subgoal-conditioned policies with advantage-weighted importance sampling. Our approach eliminates the need for a generative model over the (sub)goal space, which we find is key for scaling to high-dimensional control in large state spaces. We further show that existing hierarchical and bootstrapping-based approaches correspond to specific design choices within our derivation. Across a comprehensive suite of state- and pixel-based locomotion and manipulation benchmarks, our method matches or surpasses state-of-the-art offline GCRL algorithms and scales to complex, long-horizon tasks where prior approaches fail.
- Abstract(参考訳): オフライン目標条件強化学習(英: Offline goal-conditioned reinforcement learning, GCRL)は、コンピュータビジョンと自然言語処理の基礎モデルを訓練するために使用される自己指導的目的に類似した、報酬のない軌道の大規模データセットに対する一般政策を事前訓練するための有望なアプローチである。
しかし、より長い地平線へのGCRLのスケーリングは、スパース報酬と割引の組み合わせにより困難であり、これは遠い目標に対する原始的行動の比較上の利点を曖昧にしている。
階層的RL法は, 長期的目標達成タスクにおいて強い経験的結果をもたらすが, モジュール性, 時間スケール固有のポリシ, サブゴール生成への依存は, さらなる複雑さをもたらし, 高次元目標空間へのスケーリングを妨げている。
本研究では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
さらに、既存の階層的およびブートストラップに基づくアプローチが、私たちの導出における特定の設計選択に対応していることを示す。
最新のオフラインGCRLアルゴリズムに適合するか,あるいは超越して,事前アプローチが失敗する複雑な長時間水平タスクにスケールする。
関連論文リスト
- Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning [15.902089688167871]
オフライン目標条件強化学習(GCRL)は、豊富なラベルなしデータセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。
我々は,時間差学習プロセスに時間的抽象化を組み込んだ,OTAと呼ばれるオプション対応の時間的抽象価値学習を提案する。
OTAを用いて抽出した高レベルポリシーは,OGBenchの複雑なタスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2025-05-19T05:51:11Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。