論文の概要: HapticLLaMA: A Multimodal Sensory Language Model for Haptic Captioning
- arxiv url: http://arxiv.org/abs/2508.06475v1
- Date: Fri, 08 Aug 2025 17:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.322788
- Title: HapticLLaMA: A Multimodal Sensory Language Model for Haptic Captioning
- Title(参考訳): HapticLLaMA:Haptic Captioningのためのマルチモーダル感覚言語モデル
- Authors: Guimin Hu, Daniel Hershcovich, Hasti Seifi,
- Abstract要約: HapticLLaMA(ハプティックラーマ)は、振動信号を与えられた感覚、感情、または連想のカテゴリーの記述に解釈する多モーダル感覚言語モデルである。
HapticLLaMAは,(1)LLaMAアーキテクチャを用いた教師付き微調整,(2)人間からのフィードバックからの強化学習による微調整の2段階で訓練される。
HapticLLaMA は触覚振動信号を解釈する強力な能力を示し、それぞれ 59.98 の METEOR スコアと 32.06 の BLEU-4 スコアを達成している。
- 参考スコア(独自算出の注目度): 16.01096757075079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Haptic captioning is the task of generating natural language descriptions from haptic signals, such as vibrations, for use in virtual reality, accessibility, and rehabilitation applications. While previous multimodal research has focused primarily on vision and audio, haptic signals for the sense of touch remain underexplored. To address this gap, we formalize the haptic captioning task and propose HapticLLaMA, a multimodal sensory language model that interprets vibration signals into descriptions in a given sensory, emotional, or associative category. We investigate two types of haptic tokenizers, a frequency-based tokenizer and an EnCodec-based tokenizer, that convert haptic signals into sequences of discrete units, enabling their integration with the LLaMA model. HapticLLaMA is trained in two stages: (1) supervised fine-tuning using the LLaMA architecture with LoRA-based adaptation, and (2) fine-tuning via reinforcement learning from human feedback (RLHF). We assess HapticLLaMA's captioning performance using both automated n-gram metrics and human evaluation. HapticLLaMA demonstrates strong capability in interpreting haptic vibration signals, achieving a METEOR score of 59.98 and a BLEU-4 score of 32.06 respectively. Additionally, over 61% of the generated captions received human ratings above 3.5 on a 7-point scale, with RLHF yielding a 10% improvement in the overall rating distribution, indicating stronger alignment with human haptic perception. These findings highlight the potential of large language models to process and adapt to sensory data.
- Abstract(参考訳): ハプティックキャプション(英: Haptic Casting)とは、仮想現実、アクセシビリティ、リハビリテーションの用途において、振動などの触覚信号から自然言語記述を生成するタスクである。
これまでのマルチモーダルな研究は主に視覚とオーディオに焦点を当ててきたが、触覚の触覚信号はまだ探索されていない。
このギャップに対処するために,ハプティックキャプションタスクを形式化し,振動信号を所定の感覚・感情・連想カテゴリーの記述に解釈するマルチモーダル感覚言語モデルHapticLLaMAを提案する。
我々は、周波数ベースのトークン化器とEnCodecベースのトークン化器の2つのタイプの触覚信号を離散単位のシーケンスに変換し、LLaMAモデルとの統合を可能にする。
HapticLLaMAは,(1)LLaMAアーキテクチャを用いた教師付き微調整,(2)人間からのフィードバック(RLHF)による強化学習による微調整の2段階で訓練される。
我々は,HapticLLaMAのキャプション性能を,n-gram自動測定と人的評価の両方を用いて評価した。
HapticLLaMA は触覚振動信号を解釈する強力な能力を示し、それぞれ 59.98 の METEOR スコアと 32.06 の BLEU-4 スコアを達成している。
さらに、生成されたキャプションの61%以上が3.5点以上の評価を7点スケールで受けており、RLHFは全体の評価分布を10%改善し、人間の触覚知覚とより強く一致していることが示唆された。
これらの知見は、感覚データ処理と適応のための大きな言語モデルの可能性を強調している。
関連論文リスト
- MOSPA: Human Motion Generation Driven by Spatial Audio [56.735282455483954]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
MOSPAと呼ばれるSPatial Audioによって駆動される人間の運動生成のための、シンプルで効果的な拡散に基づく生成フレームワークを開発する。
トレーニングが完了すると、MOSPAは様々な空間的オーディオ入力に基づいて、多様なリアルな人間の動作を生成することができる。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning [14.038083767470019]
スマートホームで活動する身体エージェントは、多様な感覚入力を通じて人間の行動を理解し、自然言語を介してコミュニケーションする必要がある。
本稿では,Multimodal Large Language Model (MLLM) であるHoloLLMを紹介する。
また,HoloLLMは既存のMLLMよりも優れており,言語による人間の知覚精度を最大30%向上することを示した。
論文 参考訳(メタデータ) (2025-05-23T09:06:09Z) - MADUV: The 1st INTERSPEECH Mice Autism Detection via Ultrasound Vocalization Challenge [39.014730677559974]
超音波による自閉症検出(MADUV)チャレンジでは、マウスの発声による自閉症スペクトラム障害(ASD)の検出に焦点を当てた最初のInterSPEECHチャレンジが導入されている。
参加者は、サンプリング率の高い記録に基づいて、マウスをワイルドタイプまたはASDモデルとして自動的に分類するモデルを開発することを義務付けられている。
その結果, 可聴域の特徴を最大限に発揮し, 自動ASD検出の実現可能性を示した。
論文 参考訳(メタデータ) (2025-01-08T05:32:55Z) - Bridging Auditory Perception and Language Comprehension through MEG-Driven Encoding Models [0.12289361708127873]
脳磁図(MEG)データを用いて、音声言語刺激に対する脳反応を解析する。
我々は,音声-MEGエンコーダとテキスト-MEGエンコーダの2つの異なる符号化モデルを開発した。
どちらのモデルも神経活動の予測に成功し、推定されたMEG信号と観測されたMEG信号の間に有意な相関を示す。
論文 参考訳(メタデータ) (2024-12-22T19:41:54Z) - Grounding Emotional Descriptions to Electrovibration Haptic Signals [4.551032947977237]
自由形式のユーザ言語は、触覚設計のためのリッチな感覚情報と感情情報を提供する。
感覚と感情のキーワードを抽出し、それらをセマンティッククラスタにグループ化する計算パイプラインを開発した。
提案するパイプラインは,触覚経験を解析するための計算手法の実現可能性を示す。
論文 参考訳(メタデータ) (2024-11-04T14:30:57Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。