論文の概要: Masked Visual Pre-training for Motor Control
- arxiv url: http://arxiv.org/abs/2203.06173v1
- Date: Fri, 11 Mar 2022 18:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:41:54.461779
- Title: Masked Visual Pre-training for Motor Control
- Title(参考訳): モータ制御のためのマスク付き視覚前訓練
- Authors: Tete Xiao, Ilija Radosavovic, Trevor Darrell, Jitendra Malik
- Abstract要約: 実世界の画像からの自己教師付き視覚前訓練は、画素から運動制御タスクを学習するのに有効である。
私たちはビジュアルエンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。
これは、モーター制御のために現実の画像を大規模に活用した初めての自己教師型モデルである。
- 参考スコア(独自算出の注目度): 118.18189211080225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper shows that self-supervised visual pre-training from real-world
images is effective for learning motor control tasks from pixels. We first
train the visual representations by masked modeling of natural images. We then
freeze the visual encoder and train neural network controllers on top with
reinforcement learning. We do not perform any task-specific fine-tuning of the
encoder; the same visual representations are used for all motor control tasks.
To the best of our knowledge, this is the first self-supervised model to
exploit real-world images at scale for motor control. To accelerate progress in
learning from pixels, we contribute a benchmark suite of hand-designed tasks
varying in movements, scenes, and robots. Without relying on labels,
state-estimation, or expert demonstrations, we consistently outperform
supervised encoders by up to 80% absolute success rate, sometimes even matching
the oracle state performance. We also find that in-the-wild images, e.g., from
YouTube or Egocentric videos, lead to better visual representations for various
manipulation tasks than ImageNet images.
- Abstract(参考訳): 本稿では,実世界の画像からの自己教師付き視覚前訓練が,画素からの運動制御タスクの学習に有効であることを示す。
まず,自然画像のマスキングモデルを用いて視覚表現を訓練する。
次に視覚エンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。
エンコーダのタスク固有の微調整は行いませんが、同じ視覚表現がすべてのモータ制御タスクに使われています。
私たちの知る限りでは、これは実世界の画像をモーター制御のために大規模に活用する最初の自己監視モデルです。
画素からの学習の進歩を加速するために,動作,シーン,ロボットによって異なる手作業のベンチマークスイートを寄贈する。
ラベルや状態推定、あるいは専門家によるデモンストレーションを頼りにせずに、教師付きエンコーダを最大80%の絶対的な成功率で、時にはオラクルの状態のパフォーマンスにマッチさせる。
また、例えばYouTubeやEgocentricビデオからの画像は、ImageNetイメージよりも様々な操作タスクの視覚的表現が優れていることもわかりました。
関連論文リスト
- ViSaRL: Visual Reinforcement Learning Guided by Human Saliency [6.969098096933547]
ビジュアル・サリエンシ指導型強化学習(ViSaRL)を紹介する。
ViSaRLを用いて視覚表現を学習すると、RLエージェントの成功率、サンプル効率、一般化が大幅に向上する。
ViSaRLを用いて学習した視覚表現は、知覚ノイズやシーンの変動など、様々な視覚摂動の源泉に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-03-16T14:52:26Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - Real-World Robot Learning with Masked Visual Pre-training [161.88981509645416]
本研究では,実世界におけるロボット作業のための多種多様なアプリ内ビデオの画像に対する,自己指導型視覚前訓練について検討する。
私たちの視覚表現は、マスク付きオートエンコーダ(MAE)を介して事前訓練され、凍結され、学習可能な制御モジュールに渡されます。
エンコーダは、CLIP(最大75%)、ImageNet事前トレーニング(最大81%)、スクラッチ(最大81%)を一貫して上回ります。
論文 参考訳(メタデータ) (2022-10-06T17:59:01Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Active Perception and Representation for Robotic Manipulation [0.8315801422499861]
本稿では、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
我々のエージェントは、視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向のアクションを実行する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率がある。
論文 参考訳(メタデータ) (2020-03-15T01:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。