論文の概要: Real-World Robot Learning with Masked Visual Pre-training
- arxiv url: http://arxiv.org/abs/2210.03109v1
- Date: Thu, 6 Oct 2022 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:09:24.385589
- Title: Real-World Robot Learning with Masked Visual Pre-training
- Title(参考訳): Masked Visual Pre-Trainingを用いた実世界ロボット学習
- Authors: Ilija Radosavovic, Tete Xiao, Stephen James, Pieter Abbeel, Jitendra
Malik, Trevor Darrell
- Abstract要約: 本研究では,実世界におけるロボット作業のための多種多様なアプリ内ビデオの画像に対する,自己指導型視覚前訓練について検討する。
私たちの視覚表現は、マスク付きオートエンコーダ(MAE)を介して事前訓練され、凍結され、学習可能な制御モジュールに渡されます。
エンコーダは、CLIP(最大75%)、ImageNet事前トレーニング(最大81%)、スクラッチ(最大81%)を一貫して上回ります。
- 参考スコア(独自算出の注目度): 161.88981509645416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore self-supervised visual pre-training on images from
diverse, in-the-wild videos for real-world robotic tasks. Like prior work, our
visual representations are pre-trained via a masked autoencoder (MAE), frozen,
and then passed into a learnable control module. Unlike prior work, we show
that the pre-trained representations are effective across a range of real-world
robotic tasks and embodiments. We find that our encoder consistently
outperforms CLIP (up to 75%), supervised ImageNet pre-training (up to 81%), and
training from scratch (up to 81%). Finally, we train a 307M parameter vision
transformer on a massive collection of 4.5M images from the Internet and
egocentric videos, and demonstrate clearly the benefits of scaling visual
pre-training for robot learning.
- Abstract(参考訳): 本研究では,実世界のロボット作業における多種多様な映像の自己教師付き視覚事前学習について検討する。
以前の作業と同様に、視覚表現はマスク付きオートエンコーダ(MAE)を介して事前訓練され、凍結され、学習可能な制御モジュールに渡される。
従来の作業とは異なり、トレーニング済みの表現は、現実世界のロボットタスクや実施形態で有効であることを示す。
当社のエンコーダは,クリップ(最大75%),イメージネット事前トレーニング(最大81%),スクラッチ(最大81%)を一貫して上回っています。
最後に,インターネットおよびエゴセントリックビデオから450万画像の膨大なコレクションに対して,307mパラメータビジョントランスフォーマーをトレーニングし,ロボット学習のための視覚的事前トレーニングのメリットを明確に示す。
関連論文リスト
- Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - R3M: A Universal Visual Representation for Robot Manipulation [91.55543664116209]
多様な人間の映像データに基づいて事前訓練された視覚表現が、ロボット操作タスクのデータ効率の学習を可能にする方法について検討する。
R3Mは、CLIPやMoCoのような最先端のビジュアル表現と比較して、スクラッチからのトレーニングよりも20%以上改善し、10%以上改善しています。
論文 参考訳(メタデータ) (2022-03-23T17:55:09Z) - Masked Visual Pre-training for Motor Control [118.18189211080225]
実世界の画像からの自己教師付き視覚前訓練は、画素から運動制御タスクを学習するのに有効である。
私たちはビジュアルエンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。
これは、モーター制御のために現実の画像を大規模に活用した初めての自己教師型モデルである。
論文 参考訳(メタデータ) (2022-03-11T18:58:10Z) - Monocular Robot Navigation with Self-Supervised Pretrained Vision
Transformers [10.452316044889177]
我々は,70個のトレーニング画像を用いて,ダッキータウン環境に対する粗い画像分割モデルを訓練する。
提案モデルでは,8x8パッチレベルで粗い画像分割を行い,予測粒度とリアルタイム知覚制約のバランスをとるために推論分解能を調整できる。
結果として得られる知覚モデルは、単純だが堅牢な視覚サーボ剤のバックボーンとして使用される。
論文 参考訳(メタデータ) (2022-03-07T19:47:52Z) - KOVIS: Keypoint-based Visual Servoing with Zero-Shot Sim-to-Real
Transfer for Robotics Manipulation [8.81267687440119]
KOVISは、目視ステレオカメラシステムを用いたロボット操作作業のための、学習ベースで校正不要なビジュアルサーボ手法である。
シミュレーション環境でのみ、ディープニューラルネットワークをトレーニングします。
本研究では,ロボット操作タスクのシミュレーション環境と実環境実験の両方において,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-07-28T02:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。