論文の概要: The Language of Touch: Translating Vibrations into Text with Dual-Branch Learning
- arxiv url: http://arxiv.org/abs/2603.26804v1
- Date: Thu, 26 Mar 2026 07:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.630568
- Title: The Language of Touch: Translating Vibrations into Text with Dual-Branch Learning
- Title(参考訳): 触覚の言語:デュアルブランチ学習によるテキストへの振動の翻訳
- Authors: Jin Chen, Yifeng Lin, Chao Zeng, Si Wu, Tiesong Zhao,
- Abstract要約: ビブロタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタク
ViPACは、周期成分と非周期成分をアンタングル化するデュアルブランチ戦略と、信号特徴を適応的に統合する動的融合機構を併用する。
実験の結果,VPACは音声や画像のキャプションから適応したベースライン手法よりも優れ,語彙の忠実度やセマンティックアライメントに優れていた。
- 参考スコア(独自算出の注目度): 30.059060359799293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standardization of vibrotactile data by IEEE P1918.1 workgroup has greatly advanced its applications in virtual reality, human-computer interaction and embodied artificial intelligence. Despite these efforts, the semantic interpretation and understanding of vibrotactile signals remain an unresolved challenge. In this paper, we make the first attempt to address vibrotactile captioning, {\it i.e.}, generating natural language descriptions from vibrotactile signals. We propose Vibrotactile Periodic-Aperiodic Captioning (ViPAC), a method designed to handle the intrinsic properties of vibrotactile data, including hybrid periodic-aperiodic structures and the lack of spatial semantics. Specifically, ViPAC employs a dual-branch strategy to disentangle periodic and aperiodic components, combined with a dynamic fusion mechanism that adaptively integrates signal features. It also introduces an orthogonality constraint and weighting regularization to ensure feature complementarity and fusion consistency. Additionally, we construct LMT108-CAP, the first vibrotactile-text paired dataset, using GPT-4o to generate five constrained captions per surface image from the popular LMT-108 dataset. Experiments show that ViPAC significantly outperforms the baseline methods adapted from audio and image captioning, achieving superior lexical fidelity and semantic alignment.
- Abstract(参考訳): IEEE P1918.1ワークグループによるビブロタクタクタブルデータの標準化は、仮想現実、人間とコンピュータのインタラクション、人工知能の具体化において、その応用を大いに進歩させてきた。
これらの努力にもかかわらず、バイブロタクティル信号の意味的解釈と理解は未解決の課題である。
本論文では, ビブロタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタク
ビブロタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタク
具体的には、ViPACは、周期成分と非周期成分をアンタングル化するデュアルブランチ戦略と、信号特徴を適応的に統合する動的融合機構を併用する。
また、機能の相補性と融合の整合性を保証するために、直交制約と正規化の重み付けも導入している。
さらに, GPT-4o を用いて最初のビブロタクティルテキストペア化データセットである LMT108-CAP を構築し, 一般的な LMT-108 データセットから表面画像毎に5つの制約付きキャプションを生成する。
実験の結果,VPACは音声や画像のキャプションから適応したベースライン手法よりも優れており,語彙の忠実度やセマンティックアライメントに優れていた。
関連論文リスト
- Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition [0.0]
聴覚障害者コミュニティと聴覚障害者コミュニティのギャップを埋める上で,サインジェスチャを連続的に認識し,それらをグロースに変換することが重要な役割を担っている。
ポーズ列を直接自然言語テキストに変換する自動回帰デコーダのみの変換器であるAutoSignを提案する。
マルチステージパイプラインを削除することで、AutoSignはIsharah-1000データセットを大幅に改善した。
論文 参考訳(メタデータ) (2025-07-26T07:28:33Z) - Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2025-06-03T04:49:08Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - Vision Transformers with Natural Language Semantics [13.535916922328287]
視覚変換器(ViT)には、自然言語処理(NLP)と異なり、基本的な意味情報がない。
セマンティック・ビジョン・トランスフォーマー (Semantic Vision Transformers, SViT) は, セマンティック・インフォメーションを利用したトランスフォーマモデルである。
SViTは意味情報を効果的に活用し、畳み込みニューラルネットワークを連想させる誘導バイアスを生み出す。
論文 参考訳(メタデータ) (2024-02-27T19:54:42Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。