論文の概要: Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities
- arxiv url: http://arxiv.org/abs/2511.11512v1
- Date: Fri, 14 Nov 2025 17:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.749148
- Title: Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities
- Title(参考訳): 触覚・言語・視覚の適応のための協調表現学習
- Authors: Yiyun Zhou, Mingjing Xu, Jingwei Shi, Quanjiang Li, Jingyuan Chen,
- Abstract要約: 触覚は視覚と言語に豊かで相補的な情報を提供し、ロボットはきめ細かい物体の性質を知覚することができる。
既存の手法では、触覚、言語、視覚のモダリティ間の中間的コミュニケーションを完全に統合することができない。
TLV-CoReは,CLIPをベースとした触覚・言語・視覚協調表現学習手法である。
- 参考スコア(独自算出の注目度): 19.45726946555448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tactile sensing offers rich and complementary information to vision and language, enabling robots to perceive fine-grained object properties. However, existing tactile sensors lack standardization, leading to redundant features that hinder cross-sensor generalization. Moreover, existing methods fail to fully integrate the intermediate communication among tactile, language, and vision modalities. To address this, we propose TLV-CoRe, a CLIP-based Tactile-Language-Vision Collaborative Representation learning method. TLV-CoRe introduces a Sensor-Aware Modulator to unify tactile features across different sensors and employs tactile-irrelevant decoupled learning to disentangle irrelevant tactile features. Additionally, a Unified Bridging Adapter is introduced to enhance tri-modal interaction within the shared representation space. To fairly evaluate the effectiveness of tactile models, we further propose the RSS evaluation framework, focusing on Robustness, Synergy, and Stability across different methods. Experimental results demonstrate that TLV-CoRe significantly improves sensor-agnostic representation learning and cross-modal alignment, offering a new direction for multimodal tactile representation.
- Abstract(参考訳): 触覚は視覚と言語に豊かで相補的な情報を提供し、ロボットはきめ細かい物体の性質を知覚することができる。
しかし、既存の触覚センサーには標準化が欠けているため、クロスセンサーの一般化を妨げる冗長な特徴がある。
さらに,既存の手法では触覚,言語,視覚の中間的コミュニケーションを完全に統合することができない。
そこで我々は,CLIPをベースとしたTactile-Language-Vision Representorative Learning法であるTLV-CoReを提案する。
TLV-CoReは、異なるセンサー間で触覚機能を統一するSensor-Aware Modulatorを導入し、触覚非関連の非結合学習を使用して、無関係な触覚特徴を分解する。
さらに、共有表現空間内でのトリモーダル相互作用を強化するために、統一ブリッジングアダプタが導入された。
触覚モデルの有効性を定量的に評価するために,ロバスト性,シナジー性,安定性に着目したRSS評価フレームワークを提案する。
実験結果から,TLV-CoReはセンサ非依存の表現学習とクロスモーダルアライメントを著しく改善し,マルチモーダル触覚表現のための新たな方向を提供することが示された。
関連論文リスト
- VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - Universal Visuo-Tactile Video Understanding for Embodied Interaction [16.587054862266168]
本稿では,VTV-LLMについて紹介する。
VTV-LLMは触覚と自然言語のギャップを埋める。
本稿では,VTVによるビジュオ触覚表現の強化を含む新しい3段階トレーニングパラダイムを開発する。
論文 参考訳(メタデータ) (2025-05-28T16:43:01Z) - AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors [11.506370451126378]
Visuo-Tactileセンサーは、人間の触覚をエミュレートし、ロボットが物体を理解して操作できるようにする。
そこで本研究では,4種類のビジュオ触覚センサを用いたマルチモーダル触覚マルチセンサデータセットであるTacQuadを紹介する。
マルチレベル構造を持つ静的動的マルチセンサ表現学習フレームワークであるAnyTouchを提案する。
論文 参考訳(メタデータ) (2025-02-15T08:33:25Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - OmniTact: A Multi-Directional High Resolution Touch Sensor [109.28703530853542]
既存の触覚センサーは、平らで、感度が小さいか、低解像度の信号のみを提供する。
我々は,多方向高解像度触覚センサOmniTactを紹介する。
我々は,ロボット制御の課題に対して,OmniTactの能力を評価する。
論文 参考訳(メタデータ) (2020-03-16T01:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。