論文の概要: OmniVaT: Single Domain Generalization for Multimodal Visual-Tactile Learning
- arxiv url: http://arxiv.org/abs/2601.00352v1
- Date: Thu, 01 Jan 2026 14:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.393486
- Title: OmniVaT: Single Domain Generalization for Multimodal Visual-Tactile Learning
- Title(参考訳): OmniVaT:マルチモーダル視覚触覚学習のための単一ドメイン一般化
- Authors: Liuxiang Qiu, Hui Da, Yuzhen Niu, Tiesong Zhao, Yang Cao, Zheng-Jun Zha,
- Abstract要約: 視覚触覚学習(VTL)は、視覚(VIS)と触覚(TAC)センサーを統合することで、エンボディエージェントが物理的な世界を知覚することを可能にする。
我々はこれらの課題を,マルチモーダルVTLのための単一領域一般化と呼ばれる新しいタスクとして定式化する。
我々は,OmniVaTフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.4730970958238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-tactile learning (VTL) enables embodied agents to perceive the physical world by integrating visual (VIS) and tactile (TAC) sensors. However, VTL still suffers from modality discrepancies between VIS and TAC images, as well as domain gaps caused by non-standardized tactile sensors and inconsistent data collection procedures. We formulate these challenges as a new task, termed single domain generalization for multimodal VTL (SDG-VTL). In this paper, we propose an OmniVaT framework that, for the first time, successfully addresses this task. On the one hand, OmniVaT integrates a multimodal fractional Fourier adapter (MFFA) to map VIS and TAC embeddings into a unified embedding-frequency space, thereby effectively mitigating the modality gap without multi-domain training data or careful cross-modal fusion strategies. On the other hand, it also incorporates a discrete tree generation (DTG) module that obtains diverse and reliable multimodal fractional representations through a hierarchical tree structure, thereby enhancing its adaptivity to fluctuating domain shifts in unseen domains. Extensive experiments demonstrate the superior cross-domain generalization performance of OmniVaT on the SDG-VTL task.
- Abstract(参考訳): 視覚触覚学習(VTL)は、視覚(VIS)と触覚(TAC)センサーを統合することで、エンボディエージェントが物理的な世界を知覚することを可能にする。
しかし、VTLは、VIS画像とTAC画像の相違や、非標準の触覚センサや一貫性のないデータ収集手順によって引き起こされる領域ギャップに悩まされている。
我々はこれらの課題を,マルチモーダルVTL(SDG-VTL)のための単一領域一般化と呼ばれる新しいタスクとして定式化する。
本稿では,OmniVaTフレームワークを提案する。
一方、OmniVaTは、MFFA(Multimodal fractional Fourier Adapter)を統合して、VISとTACの埋め込みを統合埋め込み周波数空間にマッピングし、マルチドメイントレーニングデータや慎重な相互融合戦略を使わずに、モダリティギャップを効果的に軽減する。
一方, 離散木生成 (DTG) モジュールも組み込まれ, 階層木構造を通して多種多様かつ信頼性の高い分数表現が得られ, 未確認領域の変動領域シフトに対する適応性を高めている。
SDG-VTLタスクにおいて,OmniVaTのクロスドメイン一般化性能が優れていることを示す。
関連論文リスト
- Modality-Collaborative Low-Rank Decomposers for Few-Shot Video Domain Adaptation [74.16390314862801]
FSVDA(Few-Shot Video Domain Adaptation)の課題について検討する。
モダリティ・ユニクティック・モダリティ・共有特徴を分解するために,モダリティ・コラボレーティブ・ローランク・デコンポスタ(MC-LRD)の新たなフレームワークを導入する。
我々のモデルは既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-24T03:09:59Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - MultiTSF: Transformer-based Sensor Fusion for Human-Centric Multi-view and Multi-modal Action Recognition [2.7745600113170994]
マルチモーダル・マルチビュー観測による行動認識は、監視、ロボティクス、スマート環境における応用において大きな可能性を秘めている。
マルチモーダルマルチビュー変換器を用いたセンサフュージョン(MultiTSF)を提案する。
提案手法はトランスフォーマーを用いて動的にビュー間の関係をモデル化し,複数のビューにまたがる時間的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2025-04-03T05:04:05Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - MDViT: Multi-domain Vision Transformer for Small Medical Image Segmentation Datasets [19.44142290594537]
医用画像セグメンテーション(MIS)を改善するための有望なソリューションとして、ビジョントランスフォーマー(ViT)が登場した。
ViTは通常、単一のデータソースを使用してトレーニングされ、他の利用可能なデータセットから活用できる貴重な知識を見落としている。
本稿では,データハンガーを緩和し,NKTと戦うドメインアダプタを含む,最初のマルチドメイン ViT である MDViT を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:19:29Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。