Fugu-MT 論文翻訳(概要): UMI-3D: Extending Universal Manipulation Interface from Vision-Limited to 3D Spatial Perception

論文の概要: UMI-3D: Extending Universal Manipulation Interface from Vision-Limited to 3D Spatial Perception

arxiv url: http://arxiv.org/abs/2604.14089v1
Date: Wed, 15 Apr 2026 17:04:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.653033
Title: UMI-3D: Extending Universal Manipulation Interface from Vision-Limited to 3D Spatial Perception
Title（参考訳）: UMI-3D:視覚限界から3次元空間知覚へのユニバーサルマニピュレーションインタフェースの拡張
Authors: Ziming Wang,
Abstract要約: 本稿では,Universal Manipulation Interface(UMI)のマルチモーダル拡張であるUMI-3Dについて述べる。軽量で低コストなLiDARセンサを手首装着インタフェースに密に統合し,LiDAR中心のSLAMを実現する。さらに、ハードウェア同期マルチモーダルセンシングパイプラインと統一校正フレームワークを開発し、一貫したデモの3D表現を生成する。
参考スコア（独自算出の注目度）: 22.85129722207174
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present UMI-3D, a multimodal extension of the Universal Manipulation Interface (UMI) for robust and scalable data collection in embodied manipulation. While UMI enables portable, wrist-mounted data acquisition, its reliance on monocular visual SLAM makes it vulnerable to occlusions, dynamic scenes, and tracking failures, limiting its applicability in real-world environments. UMI-3D addresses these limitations by introducing a lightweight and low-cost LiDAR sensor tightly integrated into the wrist-mounted interface, enabling LiDAR-centric SLAM with accurate metric-scale pose estimation under challenging conditions. We further develop a hardware-synchronized multimodal sensing pipeline and a unified spatiotemporal calibration framework that aligns visual observations with LiDAR point clouds, producing consistent 3D representations of demonstrations. Despite maintaining the original 2D visuomotor policy formulation, UMI-3D significantly improves the quality and reliability of collected data, which directly translates into enhanced policy performance. Extensive real-world experiments demonstrate that UMI-3D not only achieves high success rates on standard manipulation tasks, but also enables learning of tasks that are challenging or infeasible for the original vision-only UMI setup, including large deformable object manipulation and articulated object operation. The system supports an end-to-end pipeline for data acquisition, alignment, training, and deployment, while preserving the portability and accessibility of the original UMI. All hardware and software components are open-sourced to facilitate large-scale data collection and accelerate research in embodied intelligence: \href{https://umi-3d.github.io}{https://umi-3d.github.io}.
Abstract（参考訳）: 本稿では,Universal Manipulation Interface(UMI)のマルチモーダル拡張であるUMI-3Dについて述べる。 UMIはポータブルで手首に取り付けられたデータ取得を可能にするが、モノラルな視覚SLAMに依存しているため、オクルージョンやダイナミックシーン、障害の追跡に脆弱になり、現実の環境での適用性が制限される。 UMI-3Dは、ライトウェイトで低コストのLiDARセンサーを手首に取り付けられたインターフェースに密に統合することで、これらの制限に対処する。さらに、ハードウェア同期マルチモーダルセンシングパイプラインと、LiDAR点雲と視覚的観察を整列する一貫した時空間キャリブレーションフレームワークを開発し、一貫したデモの3次元表現を生成する。 UMI-3Dはオリジナルの2Dビズモータポリシーの定式化を維持しつつも、収集データの品質と信頼性を著しく向上させ、直接的にポリシー性能を向上させる。広汎な実世界の実験により、UMI-3Dは標準的な操作タスクで高い成功率を達成するだけでなく、大きな変形可能なオブジェクト操作や定型化されたオブジェクト操作を含む、視覚のみのUMIセットアップにおいて困難で実現不可能なタスクの学習を可能にした。このシステムは、データ取得、アライメント、トレーニング、デプロイメントのためのエンドツーエンドパイプラインをサポートし、元のUMIの可搬性とアクセシビリティを保護している。すべてのハードウェアとソフトウェアコンポーネントは、大規模なデータ収集を促進し、インボディードインテリジェンスの研究を加速するためにオープンソース化されている。

関連論文リスト

LiteFusion: Taming 3D Object Detectors from Vision-Based to Multi-Modal with Minimal Adaptation [23.72983078807998]
現在の3Dオブジェクト検出器は、高い検出精度を達成するために複雑なアーキテクチャとトレーニング戦略に依存している。これらの方法はLiDARセンサーに大きく依存しているため、LiDARが欠如している場合に大きな性能低下に悩まされる。我々は,LiDAR点からの相補的特徴を四元数空間内の画像特徴に統合する,新しい多モード3D検出器LiteFusionを導入する。
論文参考訳（メタデータ） (2025-12-23T10:16:33Z)
Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。 3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。 Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-12-14T20:02:43Z)
ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation [9.977834471775816]
我々は、LiDARに頼ることなく制限を克服する、視覚のみのShelfOccを紹介した。 ShelfOccは、ビデオからメートル法的に一貫したセマンティックなボクセルラベルを生成することで、ネイティブな3D空間を監督する。本手法では,フレーム間の静的な幾何を一貫したフィルタリングと蓄積により,これらの問題を緩和する専用フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-19T12:44:13Z)
OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving [74.06413946934002]
OLiDMはオブジェクトとシーンレベルの両方で高忠実度LiDARデータを生成できる新しいフレームワークである。 OLiDMは、Object-Scene Progressive Generation (OPG) モジュールとObject Semantic Alignment (OSA) モジュールの2つの重要なコンポーネントで構成されている。 OPGは、ユーザ固有のプロンプトに適応して、望まれる前景オブジェクトを生成し、その後、シーン生成の条件として使用される。 OSAは、前景のオブジェクトと背景のシーンとの不一致を是正し、生成されたオブジェクトの全体的な品質を高めることを目的としている。
論文参考訳（メタデータ） (2024-12-23T02:43:29Z)
Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文参考訳（メタデータ） (2024-05-08T17:59:53Z)
Uni3D-LLM: Unifying Point Cloud Perception, Generation and Editing with Large Language Models [71.2931570433261]
我々は,Large Language Model(LLM)を活用した統合フレームワークであるUni3D-LLMを導入し,ポイントクラウドシーン内での3次元認識,生成,編集のタスクを統合する。 Uni3D-LLMは自然言語の表現力を活用し、3Dオブジェクトの生成と編集の正確なコマンドを可能にする。
論文参考訳（メタデータ） (2024-01-09T06:20:23Z)
MOHO: Learning Single-view Hand-held Object Reconstruction with Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。 HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文参考訳（メタデータ） (2023-10-18T03:57:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。