論文の概要: HapticCap: A Multimodal Dataset and Task for Understanding User Experience of Vibration Haptic Signals
- arxiv url: http://arxiv.org/abs/2507.13318v1
- Date: Thu, 17 Jul 2025 17:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.598415
- Title: HapticCap: A Multimodal Dataset and Task for Understanding User Experience of Vibration Haptic Signals
- Title(参考訳): HapticCap:振動触覚信号のユーザエクスペリエンス理解のためのマルチモーダルデータセットとタスク
- Authors: Guimin Hu, Daniel Hershcovich, Hasti Seifi,
- Abstract要約: 触覚信号は情報を効果的に伝達し、リアリズムを高めることができるが、ユーザと有意義に共鳴する信号の設計は困難である。
これを容易にするために、ユーザ記述と振動触覚信号とをマッチングするマルチモーダルデータセットとタスクを導入し、(1)触覚記述を収集するときにテキスト記述に注釈付けされた大きな触覚振動データセットが欠如していること、(2)既存のタスクやモデルがテキストで振動信号を記述する能力に制限があること、の2つの課題を強調した。
本稿では,ハプティックキャプション検索タスクを提案し,特定のカテゴリと振動にテキスト表現を組み込む教師付きコントラスト学習フレームワークから,このタスクの結果を示す。
- 参考スコア(独自算出の注目度): 16.01096757075079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Haptic signals, from smartphone vibrations to virtual reality touch feedback, can effectively convey information and enhance realism, but designing signals that resonate meaningfully with users is challenging. To facilitate this, we introduce a multimodal dataset and task, of matching user descriptions to vibration haptic signals, and highlight two primary challenges: (1) lack of large haptic vibration datasets annotated with textual descriptions as collecting haptic descriptions is time-consuming, and (2) limited capability of existing tasks and models to describe vibration signals in text. To advance this area, we create HapticCap, the first fully human-annotated haptic-captioned dataset, containing 92,070 haptic-text pairs for user descriptions of sensory, emotional, and associative attributes of vibrations. Based on HapticCap, we propose the haptic-caption retrieval task and present the results of this task from a supervised contrastive learning framework that brings together text representations within specific categories and vibrations. Overall, the combination of language model T5 and audio model AST yields the best performance in the haptic-caption retrieval task, especially when separately trained for each description category.
- Abstract(参考訳): スマートフォンの振動からバーチャルリアリティーのタッチフィードバックに至るまで、触覚信号は効果的に情報を伝達し、現実性を高めることができるが、ユーザーと有意義に共鳴する信号の設計は困難である。
これを容易にするために、ユーザ記述と振動触覚信号とをマッチングするマルチモーダルデータセットとタスクを導入し、(1)触覚記述を収集するときにテキスト記述に注釈付けされた大きな触覚振動データセットが欠如していること、(2)既存のタスクやモデルがテキストで振動信号を記述する能力に制限があること、の2つの課題を強調した。
この領域を推し進めるために、私たちは、感覚、感情、および振動の連想特性のユーザ記述のための92,070の触覚テキストペアを含む、最初の完全な人間アノテーション付き触覚カプセルデータセットであるHapticCapを作成しました。
本稿では,ハプティックキャプション検索タスクを提案し,特定のカテゴリと振動にテキスト表現を組み込む教師付きコントラスト学習フレームワークから,このタスクの結果を示す。
全体として、言語モデルT5とオーディオモデルASTの組み合わせは、特に各記述カテゴリで個別に訓練された場合に、触覚キャプション検索タスクにおいて最高のパフォーマンスが得られる。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction [1.778037147204838]
視覚自動音声認識(V-ASR)は、唇の動きや表情などの視覚情報のみから音声言語を解釈する課題である。
既存の手法は、しばしば視覚的手がかりから直接単語を予測することを目的としているが、視覚的曖昧さによる高いエラー率に悩まされることが多い。
本稿では,視覚的特徴とランドマーク的特徴を融合した新しい音素ベースの2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-25T00:38:39Z) - CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech [51.439665930861146]
CapTTS関連の一連のタスクのための新しいベンチマークであるCapSpeechを紹介する。
CapSpeechは、1000万以上の機械アノテーション付きオーディオキャプチャーペアと、約0.36万の人間アノテーション付きオーディオキャプチャーペアで構成されている。
CapSpeech上で自己回帰モデルと非自己回帰モデルの両方を用いて包括的実験を行う。
論文 参考訳(メタデータ) (2025-06-03T13:28:55Z) - EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling [69.96729022219117]
音波が物体にぶつかると、高周波で微妙な視覚変化をもたらす振動を誘発する。
イベントカメラハードウェアの最近の進歩は、その視覚的聴覚回復への応用に有益であることを示している。
イベントストリームからの時空間情報を完全に活用した,非接触音の回復のための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-04-03T08:51:17Z) - Matching Skeleton-based Activity Representations with Heterogeneous Signals for HAR [30.418663483793804]
SKELARは骨格データから活動表現を事前訓練し、それらを異種HAR信号とマッチングする新しいフレームワークである。
SKELARは、フルショットと少数ショットの両方で最先端のパフォーマンスを達成する。
また,SKELARは合成骨格データを効果的に活用して,骨格収集を伴わないシナリオでの利用を拡張できることも実証した。
論文 参考訳(メタデータ) (2025-03-17T18:43:06Z) - LokiTalk: Learning Fine-Grained and Generalizable Correspondences to Enhance NeRF-based Talking Head Synthesis [32.089812569366764]
ライフライクな顔のダイナミックスでNeRFをベースとした発話ヘッドを強化するフレームワークであるLokiTalkを提案する。
領域特異的変形場は、全体の肖像画の動きを唇の動き、点滅、頭部ポーズ、胴体の動きに分解する。
また,マルチアイデンティティビデオから動的および静的な対応を一般化するプラグイン・アンド・プレイモジュールであるID-Aware Knowledge Transferを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:49:44Z) - Grounding Emotional Descriptions to Electrovibration Haptic Signals [4.551032947977237]
自由形式のユーザ言語は、触覚設計のためのリッチな感覚情報と感情情報を提供する。
感覚と感情のキーワードを抽出し、それらをセマンティッククラスタにグループ化する計算パイプラインを開発した。
提案するパイプラインは,触覚経験を解析するための計算手法の実現可能性を示す。
論文 参考訳(メタデータ) (2024-11-04T14:30:57Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。