論文の概要: UNIC: Learning Unified Multimodal Extrinsic Contact Estimation
- arxiv url: http://arxiv.org/abs/2601.04356v1
- Date: Wed, 07 Jan 2026 19:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.890652
- Title: UNIC: Learning Unified Multimodal Extrinsic Contact Estimation
- Title(参考訳): UNIC: 統合されたマルチモーダル外部接触推定を学習する
- Authors: Zhengtong Xu, Yuki Shirai,
- Abstract要約: 外部接触推定のための統一的なフレームワークであるUNICを提案する。
UNICは、カメラフレームの視覚的観察を直接エンコードし、完全にデータ駆動の方法で、プロプリセプティブと触覚のモダリティと統合する。
目に見えない接触箇所で平均9.6mmのチャムファー距離誤差を達成し、目に見えない物体でも良好に動作し、モダリティの欠如の下で頑健であり、ダイナミックカメラの視点に適応する。
- 参考スコア(独自算出の注目度): 5.636323593047756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contact-rich manipulation requires reliable estimation of extrinsic contacts-the interactions between a grasped object and its environment which provide essential contextual information for planning, control, and policy learning. However, existing approaches often rely on restrictive assumptions, such as predefined contact types, fixed grasp configurations, or camera calibration, that hinder generalization to novel objects and deployment in unstructured environments. In this paper, we present UNIC, a unified multimodal framework for extrinsic contact estimation that operates without any prior knowledge or camera calibration. UNIC directly encodes visual observations in the camera frame and integrates them with proprioceptive and tactile modalities in a fully data-driven manner. It introduces a unified contact representation based on scene affordance maps that captures diverse contact formations and employs a multimodal fusion mechanism with random masking, enabling robust multimodal representation learning. Extensive experiments demonstrate that UNIC performs reliably. It achieves a 9.6 mm average Chamfer distance error on unseen contact locations, performs well on unseen objects, remains robust under missing modalities, and adapts to dynamic camera viewpoints. These results establish extrinsic contact estimation as a practical and versatile capability for contact-rich manipulation.
- Abstract(参考訳): コンタクトリッチな操作には,学習計画,制御,政策学習に不可欠なコンテキスト情報を提供する,把握対象と環境との相互作用である外部接触の信頼性の高い推定が必要である。
しかし、既存のアプローチはしばしば、事前定義された接触タイプ、固定されたグリップ構成、カメラキャリブレーションといった制限的な仮定に依存しており、新しいオブジェクトへの一般化を妨げ、非構造化環境での展開を妨げている。
本稿では,先行知識やカメラキャリブレーションを使わずに動作可能な,外部接触推定のための統合マルチモーダルフレームワークUNICを提案する。
UNICは、カメラフレームの視覚的観察を直接エンコードし、完全にデータ駆動の方法で、プロプリセプティブと触覚のモダリティと統合する。
シーン割当マップに基づく統一された接触表現を導入し、多様な接触形態をキャプチャし、ランダムマスキングによるマルチモーダル融合機構を用いて、堅牢なマルチモーダル表現学習を実現する。
大規模な実験は、UNICが確実に機能することを実証している。
目に見えない接触箇所で平均9.6mmのチャムファー距離誤差を達成し、目に見えない物体でも良好に動作し、モダリティの欠如の下で頑健であり、ダイナミックカメラの視点に適応する。
これらの結果は,接触リッチな操作のための実用的で汎用的な機能として,外在的接触推定が確立される。
関連論文リスト
- Multi-Modal Semantic Communication [39.55262791529245]
本稿では,テキストベースのユーザクエリを統合して情報抽出プロセスをガイドする,新しいマルチモーダルセマンティックコミュニケーションフレームワークを提案する。
提案システムでは,視覚的特徴を言語埋め込みと融合させてソフトな関連度スコアを生成する,モーダルなアテンション機構を採用している。
受信機では、パッチを再構築して組み合わせてタスククリティカル情報を保存する。
論文 参考訳(メタデータ) (2025-12-17T18:47:22Z) - Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。
提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。
我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-09-27T19:43:04Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - MObI: Multimodal Object Inpainting Using Diffusion Models [52.07640413626605]
マルチモーダル・オブジェクト・インペイントのための新しいフレームワークであるMObIを紹介する。
単一の参照RGBイメージを使用して、MObIは既存のマルチモーダルシーンにオブジェクトをシームレスに挿入できる。
マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-01-06T17:43:26Z) - Emergent Quantized Communication [34.31732248872158]
本稿では,メッセージの量子化という,離散的なコミュニケーションを実現するための代替手法を提案する。
メッセージの量子化により、モデルのエンドツーエンドのトレーニングが可能になり、複数のセットアップで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2022-11-04T12:39:45Z) - Stability-driven Contact Reconstruction From Monocular Color Images [7.427212296770506]
物理的接触は、手動状態の復元にさらなる制約を与える。
既存の手法では、接触ラベル付きデータセットから距離閾値または事前に駆動される手動接触を最適化する。
我々のキーとなる考え方は、単分子画像から直接接触パターンを再構築し、シミュレーションの物理的安定性基準を利用して最適化することである。
論文 参考訳(メタデータ) (2022-05-02T12:23:06Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。