論文の概要: Learning to Hear by Seeing: It's Time for Vision Language Models to Understand Artistic Emotion from Sight and Sound
- arxiv url: http://arxiv.org/abs/2511.12077v1
- Date: Sat, 15 Nov 2025 07:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.590692
- Title: Learning to Hear by Seeing: It's Time for Vision Language Models to Understand Artistic Emotion from Sight and Sound
- Title(参考訳): 視力と聴覚から芸術的感情を理解するための視覚言語モデル
- Authors: Dengming Zhang, Weitao You, Jingxiong Li, Weishen Lin, Wenda Shi, Xue Zhao, Heda Zuo, Junxian Wu, Lingyun Sun,
- Abstract要約: 芸術は視覚的要素と聴覚的要素のジョイントデザインを通じて感情を伝えるが、初期の作品のほとんどは人間中心または単一モダリティである。
本稿では,VLMを限定的な事前学習で視聴する2段階のフレームワークであるVision Anchored Audio-Visual Emotion LLM(VAEmotionLLM)を紹介する。
VAEmotionLLMはArtEmoBenchmarkの最先端の結果を達成し、オーディオのみ、ビジュアルのみ、オーディオ視覚ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 21.4061944104446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion understanding is critical for making Large Language Models (LLMs) more general, reliable, and aligned with humans. Art conveys emotion through the joint design of visual and auditory elements, yet most prior work is human-centered or single-modality, overlooking the emotion intentionally expressed by the artwork. Meanwhile, current Audio-Visual Language Models (AVLMs) typically require large-scale audio pretraining to endow Visual Language Models (VLMs) with hearing, which limits scalability. We present Vision Anchored Audio-Visual Emotion LLM (VAEmotionLLM), a two-stage framework that teaches a VLM to hear by seeing with limited audio pretraining and to understand emotion across modalities. In Stage 1, Vision-Guided Audio Alignment (VG-Align) distills the frozen visual pathway into a new audio pathway by aligning next-token distributions of the shared LLM on synchronized audio-video clips, enabling hearing without a large audio dataset. In Stage 2, a lightweight Cross-Modal Emotion Adapter (EmoAdapter), composed of the Emotion Enhancer and the Emotion Supervisor, injects emotion-sensitive residuals and applies emotion supervision to enhance cross-modal emotion understanding. We also construct ArtEmoBenchmark, an art-centric emotion benchmark that evaluates content and emotion understanding under audio-only, visual-only, and audio-visual inputs. VAEmotionLLM achieves state-of-the-art results on ArtEmoBenchmark, outperforming audio-only, visual-only, and audio-visual baselines. Ablations show that the proposed components are complementary.
- Abstract(参考訳): 感情理解は、Large Language Models(LLM)をより一般的で信頼性があり、人間と整合させるのに不可欠である。
芸術は視覚的要素と聴覚的要素のジョイントデザインを通じて感情を伝達するが、初期の作品のほとんどは人間中心または単一モダリティであり、故意に表現された感情を見渡す。
一方、現在のAVLM(Audio-Visual Language Models)は、通常、拡張性を制限する視覚言語モデル(VLM)を補聴するために、大規模オーディオ事前訓練を必要とする。
視覚アンコール音声-視覚感情LLM (VAEmotionLLM) は、VLMに限定的な事前学習を施し、モダリティ間の感情を理解することによって、VLMに聴くことを教える2段階のフレームワークである。
ステージ1では、視覚誘導型オーディオアライメント(VG-Align)は、共有LLMの次トーケン分布を同期オーディオビデオクリップに整列させて、凍結した視覚経路を新しいオーディオパスに蒸留し、大きなオーディオデータセットなしで聴取することができる。
ステージ2では、感情エンハンサー(Emotion Enhancer)と感情スーパーバイザ(Emotion Supervisor)で構成される軽量なクロスモーダル・エモーダル・アダプタ(EmoAdapter)が感情に敏感な残差を注入し、感情の監督を適用して、クロスモーダルな感情理解を強化する。
また、アート中心の感情ベンチマークであるArtEmoBenchmarkを構築し、音声のみ、視覚のみ、および音声視覚的入力の下で、コンテンツと感情の理解を評価する。
VAEmotionLLMはArtEmoBenchmarkの最先端の結果を達成し、オーディオのみ、ビジュアルのみ、オーディオ視覚ベースラインを上回ります。
アブレーションは、提案されたコンポーネントが相補的であることを示している。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation [26.389793087374432]
音声合成のためのAVLM(Audio-Visual Language Model)を提案する。
複数のビジュアルエンコーダとマルチモーダル融合戦略を事前学習中に検討し、最も効果的な統合手法を同定する。
論文 参考訳(メタデータ) (2025-08-22T08:08:45Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。