論文の概要: PWM: Policy Learning with Large World Models
- arxiv url: http://arxiv.org/abs/2407.02466v2
- Date: Wed, 3 Jul 2024 13:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-04 12:45:59.103811
- Title: PWM: Policy Learning with Large World Models
- Title(参考訳): PWM:大規模世界モデルによる政策学習
- Authors: Ignat Georgiev, Varun Giridhar, Nicklas Hansen, Animesh Garg,
- Abstract要約: 強化学習(RL)は複雑なタスクにおいて印象的な結果を得たが、異なる実施形態を持つマルチタスク設定に苦戦している。
我々は,大規模マルチタスク世界モデルから連続制御ポリシを学習する新しいモデルベースRLアルゴリズムである,大規模世界モデルを用いたポリシー学習(PWM)を紹介する。
- 参考スコア(独自算出の注目度): 37.678858748473196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has achieved impressive results on complex tasks but struggles in multi-task settings with different embodiments. World models offer scalability by learning a simulation of the environment, yet they often rely on inefficient gradient-free optimization methods. We introduce Policy learning with large World Models (PWM), a novel model-based RL algorithm that learns continuous control policies from large multi-task world models. By pre-training the world model on offline data and using it for first-order gradient policy learning, PWM effectively solves tasks with up to 152 action dimensions and outperforms methods using ground-truth dynamics. Additionally, PWM scales to an 80-task setting, achieving up to 27% higher rewards than existing baselines without the need for expensive online planning. Visualizations and code available at https://www.imgeorgiev.com/pwm
- Abstract(参考訳): 強化学習(RL)は複雑なタスクにおいて印象的な結果を得たが、異なる実施形態を持つマルチタスク設定に苦戦している。
世界モデルは環境のシミュレーションを学習することでスケーラビリティを提供するが、非効率な勾配のない最適化手法に頼っていることが多い。
大規模多タスク世界モデルから連続制御ポリシを学習する新しいモデルベースRLアルゴリズムである,大規模世界モデルを用いたポリシ学習(PWM)を導入する。
オフラインデータ上で世界モデルを事前学習し、一階勾配ポリシー学習に使用することにより、PWMは最大152のアクション次元のタスクを効果的に解決し、地上構造力学を用いた手法より優れる。
さらに、PWMは80タスク設定にスケールし、高価なオンラインプランニングを必要とせずに、既存のベースラインよりも最大27%高い報酬を達成する。
可視化とコードはhttps://www.imgeorgiev.com/pwmで公開されている。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Gradient-based Planning with World Models [21.9392160209565]
我々は、世界モデルの微分可能性を完全に活用する勾配に基づく代替案について検討する。
サンプル効率のよい設定では、ほとんどのタスクの代替手法と比較して、同等あるいは優れた性能が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:54:21Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Visual Foresight With a Local Dynamics Model [1.370633147306388]
単一ステップ操作プリミティブのための状態遷移関数を効率的に学習するローカルダイナミクスモデル(LDM)を提案する。
LDMとモデルフリーなポリシー学習を組み合わせることで、ワンステップのルックアヘッド計画を用いて複雑な操作タスクを解くことができるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2022-06-29T17:58:14Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Evolutionary Planning in Latent Space [7.863826008567604]
プランニングは、いくつかの望ましい特性を持つ強化学習の強力なアプローチである。
我々は、ラテントスペースにおける進化的計画を可能にする世界モデルを学ぶ。
ランダムなポリシーからのロールアウトでブートストラップし、より正確な計画ポリシーからのロールアウトで反復的に修正することで、世界のモデルを構築する方法を示します。
論文 参考訳(メタデータ) (2020-11-23T09:21:30Z) - TempLe: Learning Template of Transitions for Sample Efficient Multi-task
RL [18.242904106537654]
TempLeはマルチタスク強化学習のための最初のPAC-MDP法である。
オンライン" と "有限モデル" の2つのアルゴリズムをそれぞれ提示する。
提案したTempLeアルゴリズムは,シングルタスク学習者や最先端のマルチタスク手法よりもはるかに低いサンプリング複雑性を実現する。
論文 参考訳(メタデータ) (2020-02-16T19:46:49Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。