論文の概要: ConViTac: Aligning Visual-Tactile Fusion with Contrastive Representations
- arxiv url: http://arxiv.org/abs/2506.20757v1
- Date: Wed, 25 Jun 2025 18:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.852744
- Title: ConViTac: Aligning Visual-Tactile Fusion with Contrastive Representations
- Title(参考訳): ConViTac: コントラスト表現による視覚触覚融合の調整
- Authors: Zhiyuan Wu, Yongqiang Zhao, Shan Luo,
- Abstract要約: 本研究では,融合時の特徴のアライメントを高めるために,視覚触覚表現学習ネットワークであるConViTacを提案する。
我々の重要な貢献はコントラストエンコーダ機構であり、コントラストエンコーダを利用して視覚的および触覚的な入力を統一された潜伏埋め込みに投影する。
我々は,ConViTacが現在最先端の手法よりも現実的に優れていることを示すために,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 7.870120920732663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and touch are two fundamental sensory modalities for robots, offering complementary information that enhances perception and manipulation tasks. Previous research has attempted to jointly learn visual-tactile representations to extract more meaningful information. However, these approaches often rely on direct combination, such as feature addition and concatenation, for modality fusion, which tend to result in poor feature integration. In this paper, we propose ConViTac, a visual-tactile representation learning network designed to enhance the alignment of features during fusion using contrastive representations. Our key contribution is a Contrastive Embedding Conditioning (CEC) mechanism that leverages a contrastive encoder pretrained through self-supervised contrastive learning to project visual and tactile inputs into unified latent embeddings. These embeddings are used to couple visual-tactile feature fusion through cross-modal attention, aiming at aligning the unified representations and enhancing performance on downstream tasks. We conduct extensive experiments to demonstrate the superiority of ConViTac in real world over current state-of-the-art methods and the effectiveness of our proposed CEC mechanism, which improves accuracy by up to 12.0% in material classification and grasping prediction tasks.
- Abstract(参考訳): 視覚と触覚はロボットにとって2つの基本的な感覚モダリティであり、知覚と操作のタスクを強化する補完的な情報を提供する。
これまでの研究は、視覚触覚表現を共同で学習し、より意味のある情報を抽出しようと試みてきた。
しかしながら、これらのアプローチは、しばしば、機能追加や結合のような直接結合をモダリティ融合に頼っている。
本稿では,コントラスト表現を用いた融合時の特徴のアライメント向上を目的とした視覚触覚表現学習ネットワークであるConViTacを提案する。
我々の重要な貢献はコントラストエンコーダ(Contrastive Embedding Conditioning, CEC)機構である。これは、自己教師付きコントラスト学習によって事前訓練されたコントラストエンコーダを利用して、視覚的および触覚的な入力を統一された潜伏埋め込みに投影する。
これらの埋め込みは、統合された表現の整合性と下流タスクのパフォーマンス向上を目的とした、視覚的触覚的特徴融合の結合に使用される。
本研究では,ConViTacが現在最先端の手法よりも優れていることや,材料分類や予測タスクの把握において精度を最大12.0%向上するCECメカニズムの有効性を実証するために,広範囲な実験を行った。
関連論文リスト
- ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.505873965164197]
ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:19:29Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Exploring Predicate Visual Context in Detecting Human-Object
Interactions [44.937383506126274]
クロスアテンションによる画像特徴の再導入について検討する。
PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-11T15:57:45Z) - Visuo-Tactile Transformers for Manipulation [4.60687205898687]
本稿では,モデルに基づく強化学習と計画に適した,新しいマルチモーダル表現学習手法であるVisuo-Tactile Transformers(VTT)を提案する。
具体的には、VTTは触覚フィードバックと自己および横断的な注意を用いて、視覚領域における重要なタスク機能に注意を集中する潜時ヒートマップ表現を構築する。
論文 参考訳(メタデータ) (2022-09-30T22:38:29Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。