論文の概要: EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2505.10105v1
- Date: Thu, 15 May 2025 09:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.255335
- Title: EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation
- Title(参考訳): EmbodiedMAE:ロボットマニピュレーションのための統一型3次元マルチモーダル表現
- Authors: Zibin Dong, Fei Ni, Yifu Yuan, Yinchuan Li, Jianye Hao,
- Abstract要約: EmbodiedMAEはロボット操作のための統一された3D表現である。
EmbodiedMAEは、最先端のビジョン基盤モデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 44.08442553098017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present EmbodiedMAE, a unified 3D multi-modal representation for robot manipulation. Current approaches suffer from significant domain gaps between training datasets and robot manipulation tasks, while also lacking model architectures that can effectively incorporate 3D information. To overcome these limitations, we enhance the DROID dataset with high-quality depth maps and point clouds, constructing DROID-3D as a valuable supplement for 3D embodied vision research. Then we develop EmbodiedMAE, a multi-modal masked autoencoder that simultaneously learns representations across RGB, depth, and point cloud modalities through stochastic masking and cross-modal fusion. Trained on DROID-3D, EmbodiedMAE consistently outperforms state-of-the-art vision foundation models (VFMs) in both training efficiency and final performance across 70 simulation tasks and 20 real-world robot manipulation tasks on two robot platforms. The model exhibits strong scaling behavior with size and promotes effective policy learning from 3D inputs. Experimental results establish EmbodiedMAE as a reliable unified 3D multi-modal VFM for embodied AI systems, particularly in precise tabletop manipulation settings where spatial perception is critical.
- Abstract(参考訳): 本稿では,ロボット操作のための3次元マルチモーダル表現であるEmbodiedMAEを紹介する。
現在のアプローチでは、トレーニングデータセットとロボット操作タスクの間に大きな領域ギャップがあり、3D情報を効果的に組み込むことのできるモデルアーキテクチャが欠如している。
これらの制限を克服するため,DROIDデータセットを高品質の深度マップと点雲で拡張し,DROID-3Dを3次元具現化視覚研究のための貴重な補助品として構築する。
次に,マルチモーダルマスク付きオートエンコーダであるEmbodiedMAEを開発した。
DROID-3Dに基づいてトレーニングされたEmbodiedMAEは、70のシミュレーションタスクと2つのロボットプラットフォーム上で20の現実世界のロボット操作タスクのトレーニング効率と最終的なパフォーマンスの両方において、最先端のビジョン基盤モデル(VFM)を一貫して上回っている。
このモデルは,3次元インプットから効果的なポリシー学習を促進する。
実験により、EmbodiedMAEは、特に空間知覚が重要となるテーブルトップ操作設定において、インボディードAIシステムのための信頼性の高い3次元マルチモーダルVFMとして確立された。
関連論文リスト
- LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition [5.317624228510749]
ロボットアプリケーションにおける3次元物体認識を強化するために,軽量マルチモーダル・マルチビュー・コンボリューショナル・ビジョン・トランスフォーマネットワーク(LM-MCVT)を提案する。
提案手法を合成モデルNet40データセット上で評価し,95.6%の認識精度を実現する。
その結果,合成および実世界の3Dデータ間での3Dオブジェクト認識における手法の堅牢性を示す。
論文 参考訳(メタデータ) (2025-04-27T14:30:16Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。