論文の概要: ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning
- arxiv url: http://arxiv.org/abs/2602.11643v1
- Date: Thu, 12 Feb 2026 06:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.685207
- Title: ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning
- Title(参考訳): ViTaS:視覚運動学習のための視覚触覚ソフトフュージョンコントラスト学習
- Authors: Yufeng Tian, Shuiqi Cheng, Tianming Wei, Tianxing Zhou, Yuanhang Zhang, Zixian Liu, Qianwei Han, Zhecheng Yuan, Huazhe Xu,
- Abstract要約: 視覚情報と触覚情報の両方を組み込んでエージェントの動作をガイドするフレームワークであるViTaSを提案する。
本手法の有効性をシミュレーションした12の環境と3つの実環境において示す。
- 参考スコア(独自算出の注目度): 33.49725304395789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tactile information plays a crucial role in human manipulation tasks and has recently garnered increasing attention in robotic manipulation. However, existing approaches mostly focus on the alignment of visual and tactile features and the integration mechanism tends to be direct concatenation. Consequently, they struggle to effectively cope with occluded scenarios due to neglecting the inherent complementary nature of both modalities and the alignment may not be exploited enough, limiting the potential of their real-world deployment. In this paper, we present ViTaS, a simple yet effective framework that incorporates both visual and tactile information to guide the behavior of an agent. We introduce Soft Fusion Contrastive Learning, an advanced version of conventional contrastive learning method and a CVAE module to utilize the alignment and complementarity within visuo-tactile representations. We demonstrate the effectiveness of our method in 12 simulated and 3 real-world environments, and our experiments show that ViTaS significantly outperforms existing baselines. Project page: https://skyrainwind.github.io/ViTaS/index.html.
- Abstract(参考訳): 触覚情報は人間の操作作業において重要な役割を担い、最近はロボット操作に注目が集まっている。
しかし、既存のアプローチは主に視覚的特徴と触覚的特徴のアライメントに焦点を当てており、統合メカニズムは直接結合する傾向がある。
その結果、モダリティとアライメントの両方が本質的に相補的な性質を無視しているため、ブロックされたシナリオに効果的に対応するのに苦労し、実際の展開の可能性を制限することができる。
本稿では,視覚情報と触覚情報を組み合わせてエージェントの動作をガイドする,シンプルで効果的なフレームワークであるViTaSを提案する。
我々は,従来のコントラスト学習法とCVAEモジュールの高度なバージョンであるSoft Fusion Contrastive Learningを導入し,ビジュオ触覚表現のアライメントと相補性を利用する。
実環境における12のシミュレーションおよび3つの実環境において,本手法の有効性を実証し,ViTaSが既存のベースラインを著しく上回ることを示す。
プロジェクトページ: https://skyrainwind.github.io/ViTaS/index.html
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper [7.618517580705364]
触覚センサーを内蔵した携帯型軽量グリップについて述べる。
視覚信号と触覚信号を統合するクロスモーダル表現学習フレームワークを提案する。
試験管挿入や管状流体移動などの細粒度タスクに対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-07-20T17:53:59Z) - ConViTac: Aligning Visual-Tactile Fusion with Contrastive Representations [7.870120920732663]
本研究では,融合時の特徴のアライメントを高めるために,視覚触覚表現学習ネットワークであるConViTacを提案する。
我々の重要な貢献はコントラストエンコーダ機構であり、コントラストエンコーダを利用して視覚的および触覚的な入力を統一された潜伏埋め込みに投影する。
我々は,ConViTacが現在最先端の手法よりも現実的に優れていることを示すために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2025-06-25T18:43:35Z) - ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.505873965164197]
ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:19:29Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Visuo-Tactile Transformers for Manipulation [4.60687205898687]
本稿では,モデルに基づく強化学習と計画に適した,新しいマルチモーダル表現学習手法であるVisuo-Tactile Transformers(VTT)を提案する。
具体的には、VTTは触覚フィードバックと自己および横断的な注意を用いて、視覚領域における重要なタスク機能に注意を集中する潜時ヒートマップ表現を構築する。
論文 参考訳(メタデータ) (2022-09-30T22:38:29Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。