論文の概要: PWM: Policy Learning with Multi-Task World Models
- arxiv url: http://arxiv.org/abs/2407.02466v3
- Date: Mon, 24 Feb 2025 06:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:48:53.775640
- Title: PWM: Policy Learning with Multi-Task World Models
- Title(参考訳): PWM:マルチタスク世界モデルによる政策学習
- Authors: Ignat Georgiev, Varun Giridhar, Nicklas Hansen, Animesh Garg,
- Abstract要約: 世界モデル手法は、環境のシミュレーションを学習することでスケーラビリティを提供する。
勾配に基づく手法は低い分散を示すが、不連続性を扱うことができない。
連続制御のための新しいモデルベースRLアルゴリズムであるマルチタスク世界モデル(PWM)を用いたポリシー学習を紹介する。
- 参考スコア(独自算出の注目度): 37.678858748473196
- License:
- Abstract: Reinforcement Learning (RL) has made significant strides in complex tasks but struggles in multi-task settings with different embodiments. World model methods offer scalability by learning a simulation of the environment but often rely on inefficient gradient-free optimization methods for policy extraction. In contrast, gradient-based methods exhibit lower variance but fail to handle discontinuities. Our work reveals that well-regularized world models can generate smoother optimization landscapes than the actual dynamics, facilitating more effective first-order optimization. We introduce Policy learning with multi-task World Models (PWM), a novel model-based RL algorithm for continuous control. Initially, the world model is pre-trained on offline data, and then policies are extracted from it using first-order optimization in less than 10 minutes per task. PWM effectively solves tasks with up to 152 action dimensions and outperforms methods that use ground-truth dynamics. Additionally, PWM scales to an 80-task setting, achieving up to 27% higher rewards than existing baselines without relying on costly online planning. Visualizations and code are available at https://www.imgeorgiev.com/pwm/.
- Abstract(参考訳): 強化学習(RL)は複雑なタスクにおいて大きな進歩を遂げてきたが、異なる実施形態を持つマルチタスク設定に苦戦している。
世界モデル手法は、環境のシミュレーションを学習することでスケーラビリティを提供するが、しばしば政策抽出のために非効率な勾配のない最適化手法に依存している。
対照的に、勾配に基づく手法は低い分散を示すが、不連続性を扱うことができない。
我々の研究は、よく規則化された世界モデルが実際のダイナミクスよりもスムーズな最適化景観を生成できることを明らかにし、より効率的な一階最適化を可能にした。
連続制御のための新しいモデルベースRLアルゴリズムであるマルチタスク世界モデル(PWM)を用いたポリシー学習を紹介する。
当初、ワールドモデルはオフラインデータ上で事前トレーニングされ、その後、タスク毎に10分以内で1次最適化を使用してポリシーが抽出される。
PWMは最大152のアクションディメンションを持つタスクを効果的に解決し、グラウンド・トゥルース・ダイナミクスを使用するメソッドより優れている。
さらに、PWMは80タスクにスケールし、コストのかかるオンラインプランニングに頼ることなく、既存のベースラインよりも最大27%高い報酬を達成する。
ビジュアライゼーションとコードはhttps://www.imgeorgiev.com/pwm/.comで公開されている。
関連論文リスト
- Gradient-based Planning with World Models [21.9392160209565]
我々は、世界モデルの微分可能性を完全に活用する勾配に基づく代替案について検討する。
サンプル効率のよい設定では、ほとんどのタスクの代替手法と比較して、同等あるいは優れた性能が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:54:21Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Visual Foresight With a Local Dynamics Model [1.370633147306388]
単一ステップ操作プリミティブのための状態遷移関数を効率的に学習するローカルダイナミクスモデル(LDM)を提案する。
LDMとモデルフリーなポリシー学習を組み合わせることで、ワンステップのルックアヘッド計画を用いて複雑な操作タスクを解くことができるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2022-06-29T17:58:14Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Evolutionary Planning in Latent Space [7.863826008567604]
プランニングは、いくつかの望ましい特性を持つ強化学習の強力なアプローチである。
我々は、ラテントスペースにおける進化的計画を可能にする世界モデルを学ぶ。
ランダムなポリシーからのロールアウトでブートストラップし、より正確な計画ポリシーからのロールアウトで反復的に修正することで、世界のモデルを構築する方法を示します。
論文 参考訳(メタデータ) (2020-11-23T09:21:30Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。