論文の概要: Masked World Models for Visual Control
- arxiv url: http://arxiv.org/abs/2206.14244v1
- Date: Tue, 28 Jun 2022 18:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 19:09:48.972881
- Title: Masked World Models for Visual Control
- Title(参考訳): 視覚制御のためのマスキングワールドモデル
- Authors: Younggyo Seo, Danijar Hafner, Hao Liu, Fangchen Liu, Stephen James,
Kimin Lee, Pieter Abbeel
- Abstract要約: 視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 90.13638482124567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual model-based reinforcement learning (RL) has the potential to enable
sample-efficient robot learning from visual observations. Yet the current
approaches typically train a single model end-to-end for learning both visual
representations and dynamics, making it difficult to accurately model the
interaction between robots and small objects. In this work, we introduce a
visual model-based RL framework that decouples visual representation learning
and dynamics learning. Specifically, we train an autoencoder with convolutional
layers and vision transformers (ViT) to reconstruct pixels given masked
convolutional features, and learn a latent dynamics model that operates on the
representations from the autoencoder. Moreover, to encode task-relevant
information, we introduce an auxiliary reward prediction objective for the
autoencoder. We continually update both autoencoder and dynamics model using
online samples collected from environment interaction. We demonstrate that our
decoupling approach achieves state-of-the-art performance on a variety of
visual robotic tasks from Meta-world and RLBench, e.g., we achieve 81.7%
success rate on 50 visual robotic manipulation tasks from Meta-world, while the
baseline achieves 67.9%. Code is available on the project website:
https://sites.google.com/view/mwm-rl.
- Abstract(参考訳): 視覚モデルに基づく強化学習(RL)は、視覚観察からサンプル効率のよいロボット学習を可能にする可能性がある。
しかし、現在のアプローチでは、視覚表現とダイナミクスの両方を学ぶために、単一のモデルのエンドツーエンドをトレーニングしているため、ロボットと小さなオブジェクト間のインタラクションを正確にモデル化することは難しい。
本研究では,視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
具体的には、畳み込み層と視覚変換器(ViT)を備えたオートエンコーダを訓練し、マスク付き畳み込み特徴を持つ画素を再構成し、オートエンコーダから表現を操作する潜在ダイナミクスモデルを学ぶ。
さらに,タスク関連情報をエンコードするために,自動エンコーダに対する補助報酬予測目標を提案する。
環境相互作用から収集したオンラインサンプルを用いて,オートエンコーダと動的モデルの両方を継続的に更新する。
我々は,メタワールドとRLBenchの様々な視覚ロボットタスクの最先端性能,例えばメタワールドとRLBenchの50の視覚ロボット操作タスクの81.7%の成功率,ベースラインが67.9%を達成したことを実証した。
https://sites.google.com/view/mwm-rl.com.com/ コードはこちら。
関連論文リスト
- Theia: Distilling Diverse Vision Foundation Models for Robot Learning [6.709078873834651]
Theiaは、さまざまな視覚タスクで訓練された複数の市販の視覚基礎モデルを蒸留する、ロボット学習のためのビジョン基礎モデルである。
テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。
論文 参考訳(メタデータ) (2024-07-29T17:08:21Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z) - Model-Based Inverse Reinforcement Learning from Visual Demonstrations [20.23223474119314]
本稿では,視覚的人間の実演のみを与えられた場合のコスト関数を学習する,勾配に基づく逆強化学習フレームワークを提案する。
学習したコスト関数は、視覚モデル予測制御によって実証された振る舞いを再現するために使用される。
2つの基本的なオブジェクト操作タスクでハードウェアのフレームワークを評価する。
論文 参考訳(メタデータ) (2020-10-18T17:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。