論文の概要: R3M: A Universal Visual Representation for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2203.12601v1
- Date: Wed, 23 Mar 2022 17:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 13:30:23.283055
- Title: R3M: A Universal Visual Representation for Robot Manipulation
- Title(参考訳): R3M:ロボットマニピュレーションのためのユニバーサルビジュアル表現
- Authors: Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav
Gupta
- Abstract要約: 多様な人間の映像データに基づいて事前訓練された視覚表現が、ロボット操作タスクのデータ効率の学習を可能にする方法について検討する。
R3Mは、CLIPやMoCoのような最先端のビジュアル表現と比較して、スクラッチからのトレーニングよりも20%以上改善し、10%以上改善しています。
- 参考スコア(独自算出の注目度): 91.55543664116209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how visual representations pre-trained on diverse human video data
can enable data-efficient learning of downstream robotic manipulation tasks.
Concretely, we pre-train a visual representation using the Ego4D human video
dataset using a combination of time-contrastive learning, video-language
alignment, and an L1 penalty to encourage sparse and compact representations.
The resulting representation, R3M, can be used as a frozen perception module
for downstream policy learning. Across a suite of 12 simulated robot
manipulation tasks, we find that R3M improves task success by over 20% compared
to training from scratch and by over 10% compared to state-of-the-art visual
representations like CLIP and MoCo. Furthermore, R3M enables a Franka Emika
Panda arm to learn a range of manipulation tasks in a real, cluttered apartment
given just 20 demonstrations. Code and pre-trained models are available at
https://tinyurl.com/robotr3m.
- Abstract(参考訳): 多様な人間のビデオデータに基づいて事前訓練された視覚表現は、下流のロボット操作タスクをデータ効率で学習することができるかを検討する。
具体的には、時間差学習、ビデオ言語アライメント、L1ペナルティを組み合わせたEgo4D人間の映像データセットを用いて視覚表現を事前訓練し、スパース表現とコンパクト表現を奨励する。
結果の表現であるR3Mは、下流ポリシー学習のための凍結認識モジュールとして使用できる。
12のシミュレーションされたロボット操作タスクの中で、R3Mは、スクラッチからのトレーニングとCLIPやMoCoのような最先端のビジュアル表現と比較して、タスクの成功率を20%以上改善する。
さらにR3Mでは、フランカ・エミカ・パンダの腕を使って、20のデモしか行っていないアパートでさまざまな操作タスクを学習することができる。
コードと事前訓練されたモデルはhttps://tinyurl.com/robotr3m.comで入手できる。
関連論文リスト
- 3D Diffusion Policy [20.569437770908337]
3次元拡散政策(DP3)は、新しい視覚模倣学習手法である。
実験では、DP3は10のデモでほとんどのタスクを処理し、55.3%の相対的な改善でベースラインを超えた。
実際のロボット実験では、DP3は頻繁に行う基準法とは対照的に、安全要件にほとんど違反しない。
論文 参考訳(メタデータ) (2024-03-06T18:58:49Z) - Any-point Trajectory Modeling for Policy Learning [67.45990463611942]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - RVT: Robotic View Transformer for 3D Object Manipulation [46.25268237442356]
本稿では,スケーラブルかつ高精度な3次元操作のためのマルチビュー変換器RVTを提案する。
単一のRVTモデルは18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し、既存の最先端手法(PerAct)よりも26%高い相対的な成功を達成している。
論文 参考訳(メタデータ) (2023-06-26T17:59:31Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - KOVIS: Keypoint-based Visual Servoing with Zero-Shot Sim-to-Real
Transfer for Robotics Manipulation [8.81267687440119]
KOVISは、目視ステレオカメラシステムを用いたロボット操作作業のための、学習ベースで校正不要なビジュアルサーボ手法である。
シミュレーション環境でのみ、ディープニューラルネットワークをトレーニングします。
本研究では,ロボット操作タスクのシミュレーション環境と実環境実験の両方において,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-07-28T02:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。