論文の概要: Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation
- arxiv url: http://arxiv.org/abs/2508.16188v2
- Date: Wed, 27 Aug 2025 19:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 11:47:01.177412
- Title: Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation
- Title(参考訳): 信じているものを見る:表現型音声生成のための感情認識型音声-視覚言語モデリング
- Authors: Weiting Tan, Jiachen Lian, Hirofumi Inaguma, Paden Tomasello, Philipp Koehn, Xutai Ma,
- Abstract要約: 音声合成のためのAVLM(Audio-Visual Language Model)を提案する。
複数のビジュアルエンコーダとマルチモーダル融合戦略を事前学習中に検討し、最も効果的な統合手法を同定する。
- 参考スコア(独自算出の注目度): 26.389793087374432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an Audio-Visual Language Model (AVLM) for expressive speech generation by integrating full-face visual cues into a pre-trained expressive speech model. We explore multiple visual encoders and multimodal fusion strategies during pre-training to identify the most effective integration approach. Subsequent fine-tuning on emotion recognition and expressive dialogue tasks yields substantial gains over speech-only baselines (e.g., +5 F1 in emotion recognition). AVLM highlights the value of expressive visual information in guiding speech generation and offers a foundation for end-to-end multimodal conversational systems.
- Abstract(参考訳): 本稿では, 音声合成のための音声-視覚言語モデル(AVLM)を提案する。
複数のビジュアルエンコーダとマルチモーダル融合戦略を事前学習中に検討し、最も効果的な統合手法を同定する。
その後の感情認識と表現的対話タスクの微調整は、音声のみのベースライン(例えば、感情認識における+5 F1)よりも大幅に向上する。
AVLMは、音声生成の誘導における表現力のある視覚情報の価値を強調し、エンドツーエンドの多モーダル対話システムの基礎を提供する。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
EMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。