論文の概要: OmniUMI: Towards Physically Grounded Robot Learning via Human-Aligned Multimodal Interaction
- arxiv url: http://arxiv.org/abs/2604.10647v1
- Date: Sun, 12 Apr 2026 13:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.148508
- Title: OmniUMI: Towards Physically Grounded Robot Learning via Human-Aligned Multimodal Interaction
- Title(参考訳): OmniUMI:人間と協調したマルチモーダルインタラクションによる物理基盤型ロボット学習を目指して
- Authors: Shaqi Luo, Yuanyuan Li, Youhao Hu, Chenhao Yu, Chaoran Xu, Jiachen Zhang, Guocai Yao, Tiejun Huang, Ran He, Zhongyuan Wang,
- Abstract要約: UMIスタイルのインタフェースはスケーラブルなロボット学習を可能にするが、既存のシステムはほとんどビジュモータのままである。
OmniUMIは,人間と協調したマルチモーダルインタラクションによる物理的基盤を持つロボット学習のための統合フレームワークである。
- 参考スコア(独自算出の注目度): 41.5123936517904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UMI-style interfaces enable scalable robot learning, but existing systems remain largely visuomotor, relying primarily on RGB observations and trajectory while providing only limited access to physical interaction signals. This becomes a fundamental limitation in contact-rich manipulation, where success depends on contact dynamics such as tactile interaction, internal grasping force, and external interaction wrench that are difficult to infer from vision alone. We present OmniUMI, a unified framework for physically grounded robot learning via human-aligned multimodal interaction. OmniUMI synchronously captures RGB, depth, trajectory, tactile sensing, internal grasping force, and external interaction wrench within a compact handheld system, while maintaining collection--deployment consistency through a shared embodiment design. To support human-aligned demonstration, OmniUMI provides dual-force feedback through bilateral gripper feedback and natural perception of external interaction wrench in the handheld embodiment. Built on this interface, we extend diffusion policy with visual, tactile, and force-related observations, and deploy the learned policy through impedance-based execution for unified regulation of motion and contact behavior. Experiments demonstrate reliable sensing and strong downstream performance on force-sensitive pick-and-place, interactive surface erasing, and tactile-informed selective release. Overall, OmniUMI combines physically grounded multimodal data acquisition with human-aligned interaction, providing a scalable foundation for learning contact-rich manipulation.
- Abstract(参考訳): UMIスタイルのインタフェースはスケーラブルなロボット学習を可能にするが、既存のシステムは主にRGBの観測と軌道に依存し、物理的相互作用信号への限られたアクセスしか提供していない。
これは、触覚相互作用、内部把握力、視覚のみから推測することが難しい外部相互作用レンチなどの接触ダイナミクスに成功が依存する、コンタクトリッチな操作の基本的な制限となる。
OmniUMIは,人間と協調したマルチモーダルインタラクションによる物理的基盤を持つロボット学習のための統合フレームワークである。
OmniUMIは、コンパクトハンドヘルドシステム内で、RGB、深さ、軌跡、触覚、内部把握力、外部インタラクションレンチを同期的にキャプチャし、共有エボディメント設計によるコレクション-デプロイ一貫性を維持する。
OmniUMIは、人間による協調的なデモンストレーションを支援するために、両手のグリップフィードバックとハンドヘルドエンボディメントにおける外部相互作用レンチの自然な知覚を通じて、二重力フィードバックを提供する。
このインタフェース上に構築された拡散ポリシを視覚的,触覚的,力的な観察で拡張し,インピーダンスに基づく実行を通じて学習ポリシーを展開し,動作と接触行動の統一的な制御を行う。
実験は、力に敏感なピック・アンド・プレイス、インタラクティブな表面消去、触覚インフォームド選択的放出に対する信頼性の高いセンシングと強力な下流性能を示す。
全体として、OmniUMIは物理的に基盤付けられたマルチモーダルデータ取得とヒューマンアラインなインタラクションを組み合わせることで、コンタクトリッチな操作を学ぶためのスケーラブルな基盤を提供する。
関連論文リスト
- InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills [16.31202379413011]
我々は,現実世界の人間-物体間相互作用(HOI)制御のための統合物理学に基づく模倣学習フレームワークを開発した。
InterRealは、人間型ロボットがHOI参照動作をトラッキングし、きめ細かい対話的スキルの学習を容易にする。
クリティカルトラッキングエラーメトリクスによって導かれるメタ政治は、低レベルの強化学習目標に対して報酬信号を探索し、割り当てる。
論文 参考訳(メタデータ) (2026-03-08T07:44:35Z) - Rhythm: Learning Interactive Whole-Body Control for Dual Humanoids [25.74949263474117]
我々はRhythmを紹介した。Rhythmは、複雑で物理的に妥当な相互作用のためのデュアルヒューマノイドシステムの現実的な展開を可能にする最初の統一フレームワークである。
本フレームワークは,(1)人間データから実現可能なヒューマノイドインタラクション参照を生成するIAMRモジュール,(2)グラフベースの報酬を通じて結合力学をマスターするIGRLポリシ,(3)デュアルヒューマノイドインタラクションの堅牢な転送を可能にする実世界展開システム,の3つのコアコンポーネントを統合した。
論文 参考訳(メタデータ) (2026-03-03T11:04:56Z) - UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors [51.88112610411651]
そこで本研究では,多様な触覚センサにまたがる共用潜在力空間を学習する,新しい統合された触覚表現学習フレームワークを提案する。
UniForceは、逆ダイナミクス(image-to-force)とフォワードダイナミクス(force-to-image)を共同モデリングすることで、クロスセンサー領域シフトを低減する
高価な外部力/トルクセンサ(F/T)への依存を避けるため,静的平衡を利用して直接センサ・オブジェクト・センサ・インタラクションを介して力対効果データを収集する。
論文 参考訳(メタデータ) (2026-02-01T11:03:01Z) - Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - MimicTouch: Leveraging Multi-modal Human Tactile Demonstrations for Contact-rich Manipulation [8.738889129462013]
ミミックタッチ(MimicTouch)は、人手によるデモンストレーションから直接ポリシーを学ぶための新しいフレームワークである。
i)人間の触覚誘導制御戦略を学習するためのマルチモーダルな触覚データセットを収集する人間の触覚データ収集システム,i)そのようなデータを通して人間の触覚誘導制御戦略を学習するための模倣学習ベースのフレームワーク。
論文 参考訳(メタデータ) (2023-10-25T18:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。