論文の概要: GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models
- arxiv url: http://arxiv.org/abs/2310.20025v3
- Date: Thu, 16 May 2024 14:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 19:24:18.912959
- Title: GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models
- Title(参考訳): GOPlan:学習モデルによる計画による目標条件付きオフライン強化学習
- Authors: Mianchu Wang, Rui Yang, Xi Chen, Hao Sun, Meng Fang, Giovanni Montana,
- Abstract要約: ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
- 参考スコア(独自算出の注目度): 31.628341050846768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Goal-Conditioned RL (GCRL) offers a feasible paradigm for learning general-purpose policies from diverse and multi-task offline datasets. Despite notable recent progress, the predominant offline GCRL methods, mainly model-free, face constraints in handling limited data and generalizing to unseen goals. In this work, we propose Goal-conditioned Offline Planning (GOPlan), a novel model-based framework that contains two key phases: (1) pretraining a prior policy capable of capturing multi-modal action distribution within the multi-goal dataset; (2) employing the reanalysis method with planning to generate imagined trajectories for funetuning policies. Specifically, we base the prior policy on an advantage-weighted conditioned generative adversarial network, which facilitates distinct mode separation, mitigating the pitfalls of out-of-distribution (OOD) actions. For further policy optimization, the reanalysis method generates high-quality imaginary data by planning with learned models for both intra-trajectory and inter-trajectory goals. With thorough experimental evaluations, we demonstrate that GOPlan achieves state-of-the-art performance on various offline multi-goal navigation and manipulation tasks. Moreover, our results highlight the superior ability of GOPlan to handle small data budgets and generalize to OOD goals.
- Abstract(参考訳): Offline Goal-Conditioned RL(GCRL)は、多様なマルチタスクのオフラインデータセットから汎用的なポリシを学ぶための、実用的なパラダイムを提供する。
最近の顕著な進歩にもかかわらず、主にモデルフリーのオフラインGCRLメソッドは、限られたデータを扱うことや、目に見えない目標に一般化する際の制約に直面している。
本研究では,(1)マルチゴールデータセット内でのマルチモーダルな行動分布をキャプチャ可能な事前ポリシーを事前学習すること,(2)リアナリシス手法を応用して,具体化政策のための想定された軌跡を生成すること,の2つの主要なフェーズを含む,新たなモデルベースフレームワークであるゴール条件付きオフライン計画(GOPlan)を提案する。
具体的には,モード分離を容易にし,アウト・オブ・ディストリビューション(OOD)行動の落とし穴を緩和する,有利な条件付き生成的敵ネットワークを基盤とする。
さらなる政策最適化のために、軌道内目標と軌道間目標の両方について学習モデルを用いて計画し、高品質な虚構データを生成する。
GOPlanは,様々なオフラインマルチゴールナビゲーションおよび操作タスクにおいて,最先端の性能を実現することを実証した。
さらに,GOPlanが小規模なデータ予算を処理し,OOD目標を一般化する上での優れた能力を強調した。
関連論文リスト
- Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Model-Based Offline Planning with Trajectory Pruning [15.841609263723575]
オフライン強化学習(RL)は、環境相互作用のない事前コンパイルデータセットを使用した学習ポリシーを可能にする。
オフライン学習の制約と高性能計画の間のジレンマに取り組む新しい軽量モデルベースのオフライン計画フレームワークであるMOPPを提案します。
実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと比較して,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-05-16T05:00:54Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。