論文の概要: TacUMI: A Multi-Modal Universal Manipulation Interface for Contact-Rich Tasks
- arxiv url: http://arxiv.org/abs/2601.14550v1
- Date: Wed, 21 Jan 2026 00:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.872624
- Title: TacUMI: A Multi-Modal Universal Manipulation Interface for Contact-Rich Tasks
- Title(参考訳): TacUMI:コンタクトリッチタスクのためのマルチモーダルユニバーサルマニピュレーションインタフェース
- Authors: Tailai Cheng, Kejia Chen, Lingyun Chen, Liding Zhang, Yue Zhang, Yao Ling, Mahdi Hamad, Zhenshan Bing, Fan Wu, Karan Sharma, Alois Knoll,
- Abstract要約: 我々は、ハンドヘルドデモデバイスUniversal Manipulation Interface(UMI)のアイデアに基づいて構築する。
本稿では,ViTacセンサ,力トルクセンサ,ポーズトラッカーをロボット互換グリップパーに組み込んだマルチモーダルデータ収集システムであるTacUMIを紹介する。
次に、時間モデルを利用して意味的に意味のあるイベント境界を検出するマルチモーダルセグメンテーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.05859151174601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task decomposition is critical for understanding and learning complex long-horizon manipulation tasks. Especially for tasks involving rich physical interactions, relying solely on visual observations and robot proprioceptive information often fails to reveal the underlying event transitions. This raises the requirement for efficient collection of high-quality multi-modal data as well as robust segmentation method to decompose demonstrations into meaningful modules. Building on the idea of the handheld demonstration device Universal Manipulation Interface (UMI), we introduce TacUMI, a multi-modal data collection system that integrates additionally ViTac sensors, force-torque sensor, and pose tracker into a compact, robot-compatible gripper design, which enables synchronized acquisition of all these modalities during human demonstrations. We then propose a multi-modal segmentation framework that leverages temporal models to detect semantically meaningful event boundaries in sequential manipulations. Evaluation on a challenging cable mounting task shows more than 90 percent segmentation accuracy and highlights a remarkable improvement with more modalities, which validates that TacUMI establishes a practical foundation for both scalable collection and segmentation of multi-modal demonstrations in contact-rich tasks.
- Abstract(参考訳): タスク分解は複雑な長距離操作タスクの理解と学習に不可欠である。
特に、リッチな物理的相互作用を含むタスクでは、視覚的な観察とロボットの受容的情報のみに依存するが、基礎となる事象遷移を明らかにするのに失敗することが多い。
これにより、高品質なマルチモーダルデータの効率的な収集と、デモを意味のあるモジュールに分解する堅牢なセグメンテーションが要求される。
ハンドヘルドデモデバイスUniversal Manipulation Interface (UMI) のアイデアに基づいて,VTACセンサ,力トルクセンサ,ポーズトラッカをコンパクトなロボット互換グリップパー設計に統合したマルチモーダルデータ収集システムであるTacUMIを導入する。
次に、時間モデルを利用して、シーケンシャルな操作において意味的に意味のあるイベント境界を検出するマルチモーダルセグメンテーションフレームワークを提案する。
ケーブル実装タスクの課題評価では,90%以上のセグメンテーション精度が示され,さらにモダリティが向上した。
関連論文リスト
- Tracking and Segmenting Anything in Any Modality [75.32774085793498]
そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。
SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-11-22T09:09:22Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。