Fugu-MT 論文翻訳(概要): Multi-View Masked World Models for Visual Robotic Manipulation

論文の概要: Multi-View Masked World Models for Visual Robotic Manipulation

arxiv url: http://arxiv.org/abs/2302.02408v2
Date: Wed, 31 May 2023 08:13:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 03:21:35.574385
Title: Multi-View Masked World Models for Visual Robotic Manipulation
Title（参考訳）: 視覚ロボット操作のためのマルチビューマスク世界モデル
Authors: Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel
Abstract要約: ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。提案手法の有効性を様々なシナリオで示す。また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
参考スコア（独自算出の注目度）: 132.97980128530017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual robotic manipulation research and applications often use multiple cameras, or views, to better perceive the world. How else can we utilize the richness of multi-view data? In this paper, we investigate how to learn good representations with multi-view data and utilize them for visual robotic manipulation. Specifically, we train a multi-view masked autoencoder which reconstructs pixels of randomly masked viewpoints and then learn a world model operating on the representations from the autoencoder. We demonstrate the effectiveness of our method in a range of scenarios, including multi-view control and single-view control with auxiliary cameras for representation learning. We also show that the multi-view masked autoencoder trained with multiple randomized viewpoints enables training a policy with strong viewpoint randomization and transferring the policy to solve real-robot tasks without camera calibration and an adaptation procedure. Video demonstrations are available at: https://sites.google.com/view/mv-mwm.
Abstract（参考訳）: 視覚ロボット操作の研究やアプリケーションは、世界をよりよく知覚するために複数のカメラやビューを使用することが多い。マルチビューデータのリッチさをどのように活用できるのか? 本稿では,多視点データを用いて優れた表現を学習し,視覚ロボット操作に活用する方法を検討する。具体的には、ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練し、オートエンコーダから表現に基づく世界モデルを学ぶ。提案手法の有効性を,多視点制御や補助カメラを用いた一視点制御など,様々なシナリオで実証する。また,複数視点で学習した多視点マスク付きオートエンコーダは,カメラキャリブレーションや適応手順を使わずに,強力な視点ランダム化のポリシーを訓練し,実際のロボットタスクを解くためのポリシーを移譲することができることを示した。 https://sites.google.com/view/mv-mwm。

関連論文リスト

ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos [15.809468471562537]
ZeroMimicは、複数の共通操作タスクに対して、イメージ目標条件のスキルポリシーを生成する。我々は,ZeroMimicのアウト・オブ・ボックス性能を実環境やシミュレートされたキッチン設定で評価した。他のタスク設定やロボット上でZeroMimicポリシーをプラグアンドプレイで再利用するために、ソフトウェアとポリシーチェックポイントをリリースする。
論文参考訳（メタデータ） (2025-03-31T09:27:00Z)
Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文参考訳（メタデータ） (2024-11-13T16:31:08Z)
RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation [10.54770475137596]
動作学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。 CALVINベンチマークの最先端性能を達成し、D$が93.0%から96.2%に、ABC$が92.2%から94.2%に、D$が93.0%から96.2%に向上した。
論文参考訳（メタデータ） (2024-06-27T08:13:33Z)
Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文参考訳（メタデータ） (2024-05-30T17:56:54Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文参考訳（メタデータ） (2023-07-14T04:21:05Z)
Masked Visual Pre-training for Motor Control [118.18189211080225]
実世界の画像からの自己教師付き視覚前訓練は、画素から運動制御タスクを学習するのに有効である。私たちはビジュアルエンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。これは、モーター制御のために現実の画像を大規模に活用した初めての自己教師型モデルである。
論文参考訳（メタデータ） (2022-03-11T18:58:10Z)
Look Closer: Bridging Egocentric and Third-Person Views with Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文参考訳（メタデータ） (2022-01-19T18:39:03Z)
Seeing All the Angles: Learning Multiview Manipulation Policies for Contact-Rich Tasks from Demonstrations [7.51557557629519]
成功したマルチビューポリシは,モバイル操作プラットフォームにデプロイすることが可能だ。様々な視点からデータを収集することで、模倣学習によってマルチビューのポリシーを見いだせることを示す。マルチビューデータからの学習は,同一量の固定ビューデータによる学習と比較して,固定ビュータスクのパフォーマンスに対するペナルティがほとんどないことを示した。
論文参考訳（メタデータ） (2021-04-28T17:43:29Z)
Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。 DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。 DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文参考訳（メタデータ） (2021-03-31T05:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。