Fugu-MT 論文翻訳(概要): EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation

論文の概要: EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation

arxiv url: http://arxiv.org/abs/2505.10105v1
Date: Thu, 15 May 2025 09:12:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.255335
Title: EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation
Title（参考訳）: EmbodiedMAE:ロボットマニピュレーションのための統一型3次元マルチモーダル表現
Authors: Zibin Dong, Fei Ni, Yifu Yuan, Yinchuan Li, Jianye Hao,
Abstract要約: EmbodiedMAEはロボット操作のための統一された3D表現である。 EmbodiedMAEは、最先端のビジョン基盤モデルより一貫して優れている。
参考スコア（独自算出の注目度）: 44.08442553098017
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present EmbodiedMAE, a unified 3D multi-modal representation for robot manipulation. Current approaches suffer from significant domain gaps between training datasets and robot manipulation tasks, while also lacking model architectures that can effectively incorporate 3D information. To overcome these limitations, we enhance the DROID dataset with high-quality depth maps and point clouds, constructing DROID-3D as a valuable supplement for 3D embodied vision research. Then we develop EmbodiedMAE, a multi-modal masked autoencoder that simultaneously learns representations across RGB, depth, and point cloud modalities through stochastic masking and cross-modal fusion. Trained on DROID-3D, EmbodiedMAE consistently outperforms state-of-the-art vision foundation models (VFMs) in both training efficiency and final performance across 70 simulation tasks and 20 real-world robot manipulation tasks on two robot platforms. The model exhibits strong scaling behavior with size and promotes effective policy learning from 3D inputs. Experimental results establish EmbodiedMAE as a reliable unified 3D multi-modal VFM for embodied AI systems, particularly in precise tabletop manipulation settings where spatial perception is critical.
Abstract（参考訳）: 本稿では,ロボット操作のための3次元マルチモーダル表現であるEmbodiedMAEを紹介する。現在のアプローチでは、トレーニングデータセットとロボット操作タスクの間に大きな領域ギャップがあり、3D情報を効果的に組み込むことのできるモデルアーキテクチャが欠如している。これらの制限を克服するため,DROIDデータセットを高品質の深度マップと点雲で拡張し,DROID-3Dを3次元具現化視覚研究のための貴重な補助品として構築する。次に,マルチモーダルマスク付きオートエンコーダであるEmbodiedMAEを開発した。 DROID-3Dに基づいてトレーニングされたEmbodiedMAEは、70のシミュレーションタスクと2つのロボットプラットフォーム上で20の現実世界のロボット操作タスクのトレーニング効率と最終的なパフォーマンスの両方において、最先端のビジョン基盤モデル(VFM)を一貫して上回っている。このモデルは,3次元インプットから効果的なポリシー学習を促進する。実験により、EmbodiedMAEは、特に空間知覚が重要となるテーブルトップ操作設定において、インボディードAIシステムのための信頼性の高い3次元マルチモーダルVFMとして確立された。

関連論文リスト

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [34.99141865569255]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文参考訳（メタデータ） (2025-07-11T02:16:32Z)
LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition [5.317624228510749]
ロボットアプリケーションにおける3次元物体認識を強化するために,軽量マルチモーダル・マルチビュー・コンボリューショナル・ビジョン・トランスフォーマネットワーク(LM-MCVT)を提案する。提案手法を合成モデルNet40データセット上で評価し,95.6%の認識精度を実現する。その結果,合成および実世界の3Dデータ間での3Dオブジェクト認識における手法の堅牢性を示す。
論文参考訳（メタデータ） (2025-04-27T14:30:16Z)
Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文参考訳（メタデータ） (2025-04-19T08:05:47Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-11-27T18:59:52Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文参考訳（メタデータ） (2023-08-21T02:13:40Z)
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文参考訳（メタデータ） (2023-02-27T17:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。