論文の概要: Multi-View Masked World Models for Visual Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2302.02408v1
- Date: Sun, 5 Feb 2023 15:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 18:26:59.698001
- Title: Multi-View Masked World Models for Visual Robotic Manipulation
- Title(参考訳): 視覚ロボット操作のためのマルチビューマスク世界モデル
- Authors: Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter
Abbeel
- Abstract要約: ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
実世界の実験とソースコードのビデオデモはプロジェクトのWebサイトで公開されている。
- 参考スコア(独自算出の注目度): 132.97980128530017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual robotic manipulation research and applications often use multiple
cameras, or views, to better perceive the world. How else can we utilize the
richness of multi-view data? In this paper, we investigate how to learn good
representations with multi-view data and utilize them for visual robotic
manipulation. Specifically, we train a multi-view masked autoencoder which
reconstructs pixels of randomly masked viewpoints and then learn a world model
operating on the representations from the autoencoder. We demonstrate the
effectiveness of our method in a range of scenarios, including multi-view
control and single-view control with auxiliary cameras for representation
learning. We also show that the multi-view masked autoencoder trained with
multiple randomized viewpoints enables training a policy with strong viewpoint
randomization and transferring the policy to solve real-robot tasks without
camera calibration and an adaptation procedure. Videos demonstrations in
real-world experiments and source code are available at the project website:
https://sites.google.com/view/mv-mwm.
- Abstract(参考訳): 視覚ロボット操作の研究やアプリケーションは、世界をよりよく知覚するために複数のカメラやビューを使用することが多い。
マルチビューデータのリッチさをどのように活用できるのか?
本稿では,多視点データを用いて優れた表現を学習し,視覚ロボット操作に活用する方法を検討する。
具体的には、ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練し、オートエンコーダから表現に基づく世界モデルを学ぶ。
提案手法の有効性を,多視点制御や補助カメラを用いた一視点制御など,様々なシナリオで実証する。
また,複数視点で学習した多視点マスク付きオートエンコーダは,カメラキャリブレーションや適応手順を使わずに,強力な視点ランダム化のポリシーを訓練し,実際のロボットタスクを解くためのポリシーを移譲することができることを示した。
実世界の実験とソースコードのデモは、プロジェクトのWebサイト(https://sites.google.com/view/mv-mwm.com)で公開されている。
関連論文リスト
- Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。
本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。
推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。
ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-30T17:56:54Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - Masked Visual Pre-training for Motor Control [118.18189211080225]
実世界の画像からの自己教師付き視覚前訓練は、画素から運動制御タスクを学習するのに有効である。
私たちはビジュアルエンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。
これは、モーター制御のために現実の画像を大規模に活用した初めての自己教師型モデルである。
論文 参考訳(メタデータ) (2022-03-11T18:58:10Z) - Look Closer: Bridging Egocentric and Third-Person Views with
Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。
ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。
また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2022-01-19T18:39:03Z) - Seeing All the Angles: Learning Multiview Manipulation Policies for
Contact-Rich Tasks from Demonstrations [7.51557557629519]
成功したマルチビューポリシは,モバイル操作プラットフォームにデプロイすることが可能だ。
様々な視点からデータを収集することで、模倣学習によってマルチビューのポリシーを見いだせることを示す。
マルチビューデータからの学習は,同一量の固定ビューデータによる学習と比較して,固定ビュータスクのパフォーマンスに対するペナルティがほとんどないことを示した。
論文 参考訳(メタデータ) (2021-04-28T17:43:29Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。