論文の概要: VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2605.18547v1
- Date: Mon, 18 May 2026 15:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.910371
- Title: VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation
- Title(参考訳): VISAFF:会話における感情認識のための話者中心型視覚効果特徴学習
- Authors: Linan ZHU, Zihao Zhai, Xiao Han, Yuqian Fu, Xiangfan Chen, Xiangjie Kong, Guojiang Shen,
- Abstract要約: 会話における感情認識(ERC)は人間と機械の効果的な相互作用に不可欠である。
近年のビジョン・ランゲージ・モデル(VLM)は本質的にERCに適合していない。
話者中心型VISual AFFective機能学習フレームワークであるVISAFFを提案する。
- 参考スコア(独自算出の注目度): 17.099995082943735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion Recognition in Conversation (ERC) is essential for effective human-machine interaction, aiming to identify speakers' emotional states in multi-turn dialogues. Early text-based methods struggle with complex scenarios like sarcasm because they inherently neglect vital non-verbal information. While recent Vision-Language Models (VLMs) address this by analyzing video directly, they are not inherently tailored for ERC and often focus on emotionally irrelevant background regions or passive listeners rather than the active speaker. Furthermore, fine-tuning these large models incurs prohibitive computational costs. Additionally, isolated visual signals are frequently ambiguous or technically compromised without the context of linguistic content and vocal prosody. To address these challenges, we propose VISAFF, a speaker-centered VISual AFFective feature learning framework for ERC. VISAFF consists of two stages: Speaker-Centered Affective Grounding and Reliability-Guided Affective Complementation. VISAFF utilizes a tuning-free approach to unlock the reasoning capabilities of frozen VLMs, efficiently steering them to focus on the active speaker's emotional visual cues without heavy training overheads. In the second stage, we introduce a reliability-guided affective complementation mechanism that dynamically leverages textual and acoustic modalities to compensate for visual uncertainty. Experiments on two real-world datasets demonstrate that VISAFF achieves highly competitive performance compared to state-of-the-art methods in a tuning-free setting, significantly enhancing computational efficiency by eliminating the need for expensive fine-tuning of large VLMs. The source code is available at https://anonymous.4open.science/r/speaker-2365/.
- Abstract(参考訳): Emotion Recognition in Conversation (ERC) は,マルチターン対話における話者の感情状態の同定を目的とした,効果的な人間と機械の相互作用に不可欠である。
初期のテキストベースの手法は、本質的に重要な非言語情報を無視しているため、サルカズムのような複雑なシナリオに苦しむ。
近年のVLM(Vision-Language Models)では、ビデオを直接解析することでこの問題に対処しているが、本来はERCに適したものではなく、アクティブスピーカーよりも感情的に無関係な背景領域や受動的リスナーに重点を置いていることが多い。
さらに、これらの大きなモデルを微調整すると、計算コストが禁じられる。
さらに、孤立した視覚信号は、言語内容や音声韻律の文脈なしに、しばしば曖昧または技術的に妥協される。
これらの課題に対処するため,話者中心型VISual AFFective機能学習フレームワークであるVISAFFを提案する。
VISAFFは、話者中心のAffective Groundingと信頼性誘導のAffective Complementationの2つのステージで構成されている。
VISAFFは、凍結したVLMの推論能力を解き放つためにチューニング不要なアプローチを採用しており、アクティブな話者の感情的な視覚的手がかりに集中するよう効率的に操縦する。
第2段階では,視覚の不確かさを補うために,テキストと音響のモーダルを動的に活用する信頼性誘導感情補完機構を導入する。
2つの実世界のデータセットの実験により、VISAFFは、チューニング不要な環境での最先端の手法と比較して高い競争性能を達成し、大規模VLMの高価な微調整の必要性を排除し、計算効率を大幅に向上することを示した。
ソースコードはhttps://anonymous.4open.science/r/speaker-2365/で公開されている。
関連論文リスト
- Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions [52.45054413627452]
TPI-Trainは、話者認識型ハードネガティブで設計された88Kインスタンスのデータセットで、割り込み処理のための音響キュー優先順位付けを強制する。
TPI-Benchは、割り込み処理戦略を厳格に測定するために設計された総合的な評価フレームワークである。
論文 参考訳(メタデータ) (2026-04-19T10:03:42Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
まず、VLLMに対して、視覚的文脈に関連して、被験者の明らかな感情を自然言語で記述するように促す。
第二に、記述は視覚入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Revealing Emotional Clusters in Speaker Embeddings: A Contrastive
Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T20:31:53Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - Speaker Attentive Speech Emotion Recognition [11.92436948211501]
音声感情認識(SER)タスクは、DNN(Deep Neural Networks)の出現により、ここ数年で大幅に改善されました。
スピーカーのアイデンティティについて感情認識ネットワークを教えるというアイデアに基づく新しい作品を紹介します。
論文 参考訳(メタデータ) (2021-04-15T07:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。