論文の概要: 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2406.18158v1
- Date: Wed, 26 Jun 2024 08:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:08:51.640758
- Title: 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation
- Title(参考訳): 3D-MVP:ロボットマニピュレーションのための3次元マルチビュープレトレーニング
- Authors: Shengyi Qian, Kaichun Mo, Valts Blukis, David F. Fouhey, Dieter Fox, Ankit Goyal,
- Abstract要約: マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。
最小限の微調整を施した実際のロボットプラットフォームで有望な結果を示す。
- 参考スコア(独自算出の注目度): 53.45111493465405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that visual pretraining on egocentric datasets using masked autoencoders (MAE) can improve generalization for downstream robotics tasks. However, these approaches pretrain only on 2D images, while many robotics applications require 3D scene understanding. In this work, we propose 3D-MVP, a novel approach for 3D multi-view pretraining using masked autoencoders. We leverage Robotic View Transformer (RVT), which uses a multi-view transformer to understand the 3D scene and predict gripper pose actions. We split RVT's multi-view transformer into visual encoder and action decoder, and pretrain its visual encoder using masked autoencoding on large-scale 3D datasets such as Objaverse. We evaluate 3D-MVP on a suite of virtual robot manipulation tasks and demonstrate improved performance over baselines. We also show promising results on a real robot platform with minimal finetuning. Our results suggest that 3D-aware pretraining is a promising approach to improve sample efficiency and generalization of vision-based robotic manipulation policies. We will release code and pretrained models for 3D-MVP to facilitate future research. Project site: https://jasonqsy.github.io/3DMVP
- Abstract(参考訳): 近年の研究では、マスク付きオートエンコーダ(MAE)を用いた自己中心型データセットの視覚的事前トレーニングにより、下流ロボットタスクの一般化が向上することが示されている。
しかしながら、これらのアプローチは2D画像のみに事前訓練されるが、多くのロボット工学アプリケーションでは3Dシーン理解が必要である。
本研究では,マスク付きオートエンコーダを用いた3次元マルチビュー事前学習手法である3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して,3Dシーンの理解とグリップポーズの予測を行う。
我々はRVTのマルチビュートランスをビジュアルエンコーダとアクションデコーダに分割し、Objaverseのような大規模3Dデータセット上でマスク付きオートエンコードを用いて視覚エンコーダを事前訓練した。
仮想ロボット操作タスクのスイート上で3D-MVPを評価し,ベースライン上での性能向上を実証した。
また、最小限の微調整を施した実際のロボットプラットフォームで有望な結果を示す。
この結果から, 3D-Aware Pretraining は, 標本効率の向上と視覚に基づくロボット操作ポリシーの一般化に有望なアプローチであることが示唆された。
将来の研究を促進するために、3D-MVPのためのコードと事前訓練されたモデルをリリースします。
プロジェクトサイト:https://jasonqsy.github.io/3DMVP
関連論文リスト
- Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。
実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文 参考訳(メタデータ) (2025-02-18T18:59:01Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression [78.93023152602525]
スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
論文 参考訳(メタデータ) (2024-09-01T06:58:08Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations [19.914227905704102]
3Dロボットポリシーは、1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。
本稿では,新しい3Dデノナイジング変換器を備えたニューラルポリシーである3Dディフューザー・アクターを提案する。
現在のSOTAよりも18.1%向上したRLBenchに新たな最先端技術が設定されている。
また、いくつかのデモから現実世界のロボットマニピュレータの制御も学んでいる。
論文 参考訳(メタデータ) (2024-02-16T18:43:02Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - RVT: Robotic View Transformer for 3D Object Manipulation [46.25268237442356]
本稿では,スケーラブルかつ高精度な3次元操作のためのマルチビュー変換器RVTを提案する。
単一のRVTモデルは18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し、既存の最先端手法(PerAct)よりも26%高い相対的な成功を達成している。
論文 参考訳(メタデータ) (2023-06-26T17:59:31Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。