論文の概要: Cross-Modal Visuo-Tactile Object Perception
- arxiv url: http://arxiv.org/abs/2604.02108v1
- Date: Thu, 02 Apr 2026 14:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.861486
- Title: Cross-Modal Visuo-Tactile Object Perception
- Title(参考訳): クロスモーダルビジュオ触覚物体知覚
- Authors: Anirvan Dutta, Simone Tasciotti, Claudia Cusseddu, Ang Li, Panayiota Poirazi, Julijana Gjorgjieva, Etienne Burdet, Patrick van der Smagt, Mohsen Kaboli,
- Abstract要約: 物理的特性の推定は、安全で効率的な自律ロボット操作に不可欠である。
物理オブジェクト特性の構造化された因果潜在状態空間を学習するために,Cross-Modal Latent Filter (CMLF)を提案する。
- 参考スコア(独自算出の注目度): 11.137546214476243
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating physical properties is critical for safe and efficient autonomous robotic manipulation, particularly during contact-rich interactions. In such settings, vision and tactile sensing provide complementary information about object geometry, pose, inertia, stiffness, and contact dynamics, such as stick-slip behavior. However, these properties are only indirectly observable and cannot always be modeled precisely (e.g., deformation in non-rigid objects coupled with nonlinear contact friction), making the estimation problem inherently complex and requiring sustained exploitation of visuo-tactile sensory information during action. Existing visuo-tactile perception frameworks have primarily emphasized forceful sensor fusion or static cross-modal alignment, with limited consideration of how uncertainty and beliefs about object properties evolve over time. Inspired by human multi-sensory perception and active inference, we propose the Cross-Modal Latent Filter (CMLF) to learn a structured, causal latent state-space of physical object properties. CMLF supports bidirectional transfer of cross-modal priors between vision and touch and integrates sensory evidence through a Bayesian inference process that evolves over time. Real-world robotic experiments demonstrate that CMLF improves the efficiency and robustness of latent physical properties estimation under uncertainty compared to baseline approaches. Beyond performance gains, the model exhibits perceptual coupling phenomena analogous to those observed in humans, including susceptibility to cross-modal illusions and similar trajectories in learning cross-sensory associations. Together, these results constitutes a significant step toward generalizable, robust and physically consistent cross-modal integration for robotic multi-sensory perception.
- Abstract(参考訳): 物理的特性の推定は、安全で効率的な自律ロボット操作、特にコンタクトリッチな相互作用において重要である。
このような設定では、視覚と触覚は、オブジェクトの幾何学、ポーズ、慣性、硬さ、そしてスティックスリップのような接触ダイナミクスに関する補完的な情報を提供する。
しかし、これらの特性は間接的にのみ観測可能であり、常に正確にモデル化することはできない(例えば、非線形接触摩擦を伴う非剛体物体の変形)。
既存の視覚触覚認識フレームワークは、主に力強いセンサー融合や静的なモーダルアライメントを強調しており、物体の性質に関する不確実性や信念が時間とともにどのように進化するかを限定的に考慮している。
人間の多感覚知覚と能動推論から着想を得て,物理的物体特性の構造化された因果潜在状態空間を学習するためのクロスモード潜時フィルタ (CMLF) を提案する。
CMLFは視覚と触覚の双方向移動をサポートし、時間の経過とともに進化するベイズ推論プロセスを通じて感覚的エビデンスを統合する。
実世界のロボット実験は、CMLFがベースラインアプローチと比較して不確実性下での潜伏物性推定の効率と堅牢性を改善することを示した。
性能向上以外にも、モデルでは、クロスモーダルな錯覚への感受性や、クロスセンセーショナルな関連を学習する際の類似した軌跡など、人間に類似した知覚的カップリング現象を示す。
これらの結果は、ロボット多感知覚のための一般化可能、堅牢、物理的に一貫したクロスモーダル統合に向けた重要なステップとなっている。
関連論文リスト
- Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction [14.888648782445694]
本稿では,ツール間相互作用の統一表現として,パラメータ化された平衡マニフォールド(EM)を提案する。
我々は,ハプティック推定,オンライン計画,適応剛性制御を統合したクローズドループフレームワークを開発した。
このフレームワークはシミュレーションと260以上の現実世界のスクリューロージング試験によって検証されている。
論文 参考訳(メタデータ) (2026-03-11T02:57:55Z) - From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation [7.104060092661104]
本稿では,バイスオ触覚融合のためのクロスモーダルトランス (CMT) を提案する。
CMTは、構造化された自己および横断的注意を通して触覚信号と手首カメラ観測を統合する。
TacSLベンチマークの実験では、対称性の正則化を持つCMTが96.59%の挿入成功率を達成した。
論文 参考訳(メタデータ) (2026-02-14T09:19:48Z) - OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains [66.62502882481373]
現在の方法では、身体と手の両方に焦点を合わせ、結束的で現実的な相互作用を生み出す能力を制限する傾向にある。
我々は,OOD-HOIというテキスト駆動型フレームワークを提案する。
提案手法は,初期相互作用ポーズを合成するための二重分岐相互拡散モデルと,予測された接触領域に基づく物理的精度向上のための接触誘導相互作用精製器と,ロバスト性向上のための意味的調整と変形を含む動的適応機構を統合した。
論文 参考訳(メタデータ) (2024-11-27T10:13:35Z) - DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via
Physics Simulation [81.11585774044848]
我々は、前方物理シミュレーションと後方勾配近似とニューラルネットワークを組み合わせた新しいディープラーニングパイプラインであるDeepSimHOを紹介する。
提案手法は, 評価の安定性を著しく向上し, テスト時間最適化よりも優れた効率性を実現する。
論文 参考訳(メタデータ) (2023-10-11T05:34:36Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - Learning Intuitive Physics with Multimodal Generative Models [24.342994226226786]
本稿では,視覚と触覚のフィードバックを融合させ,動的シーンにおける物体の動きを予測する枠組みを提案する。
我々は、接触面の高解像度マルチモーダルセンシングを提供する新しいSee-Through-your-Skin(STS)センサを使用します。
物体の静止状態を所定の初期条件から予測するシミュレーションおよび実世界の実験を通じて検証する。
論文 参考訳(メタデータ) (2021-01-12T12:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。