Fugu-MT 論文翻訳(概要): ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations

論文の概要: ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations

arxiv url: http://arxiv.org/abs/2604.25383v1
Date: Tue, 28 Apr 2026 08:51:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.783075
Title: ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations
Title（参考訳）: ML-SAN:会話における感情認識のためのマルチレベル話者適応ネットワーク
Authors: Kexue Wang, Yinfeng Yu, Liejun Wang,
Abstract要約: 個々の表現的特徴は著しく異なり、異なる人々が異なる感情を表現できることを意味する。現在の感情認識は、すべての感情のスタイルを識別するために単一の認識モデルを用いて「静的」レベルに留まっている。本稿では,話者識別情報の混乱に対処するために,ML-SAN(Multi-Level Speaker Adaptive Network)を提案する。
参考スコア（独自算出の注目度）: 19.29677373677975
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: To establish empathy with machines, it is essential to fully understand human emotional changes. However, research in multimodal emotion recognition often overlooks one problem: individual expressive traits vary significantly, which means that different people may express emotions differently. In our daily lives, we can see this. When communicating with different people, some express "happiness" through their facial expressions and words, while others may hide their happiness or express it through their actions. Both are expressions of 'happiness,' but such differences in emotional expression are still too difficult for machines to distinguish. Current emotion recognition remains at a 'static' level, using a single recognition model to identify all emotional styles. This "simplification" often affects the recognition results, especially in multi-turn dialogues. To address this problem, this paper introduces a novel Multi-Level Speaker Adaptive Network (ML-SAN), which, specifically, effectively addresses the challenge of speaker identity information confusion. ML-SAN does not simply assign a speaker's ID after recognition; instead, it employs a three-stage adaptive process: First, Input-level Calibration uses Feature-Level Linear Modulation (FiLM) to adjust the raw audio and visual features into a neutral space unrelated to the speaker. Then, Interaction-level Gating re-adjusts the trust level for each modality (e.g., voice or facial features) based on the speaker's identity information. Finally, Output-level Regularization maintains the consistency of speaker features in the latent space. Tests on the MELD and IEMOCAP datasets show that our model (ML-SAN) achieves better results, performs exceptionally well in handling challenging tail sentiment categories, and better addresses the diversity of speakers in real-world scenarios.
Abstract（参考訳）: 機械に対する共感を確立するためには、人間の感情の変化を完全に理解することが不可欠である。しかし、マルチモーダル感情認識の研究は、個々の表現的特徴が著しく異なること、つまり、異なる人々が異なる感情を表現できることを意味する、という1つの問題をしばしば見落としている。私たちの日常生活では、これを見ることができます。異なる人とのコミュニケーションにおいては、表情や言葉を通して「幸せ」を表現する者もいれば、幸福を隠したり、行動を通じて表現したりする者もいる。どちらも「幸福」の表現であるが、そのような感情表現の違いは、機械が区別することが困難である。現在の感情認識は、すべての感情のスタイルを識別するために単一の認識モデルを用いて「静的」レベルに留まっている。この「単純化」はしばしば認識結果、特にマルチターン対話に影響を及ぼす。この問題に対処するため,本稿では,話者識別情報の混乱を効果的に解決する新しいマルチレベル話者適応ネットワーク(ML-SAN)を提案する。 ML-SANは単に認識後に話者のIDを割り当てるのではなく、3段階の適応プロセスを使用する。まず、入力レベルの校正はFiLM(Feature-Level Linear Modulation)を使用して、生のオーディオと視覚的特徴を話者とは無関係な中立な空間に調整する。そして、対話レベルゲーティングは、話者のアイデンティティ情報に基づいて、各モダリティ(例えば、声や顔の特徴)の信頼度を調整します。最後に、出力レベルの正規化は、潜在空間における話者機能の整合性を維持する。 MELDとIEMOCAPデータセットのテストでは、私たちのモデル(ML-SAN)はより良い結果が得られ、挑戦的な末尾感情カテゴリーの処理に優れた性能を示し、現実世界のシナリオにおける話者の多様性に対処する。

関連論文リスト

Speaker Style-Aware Phoneme Anchoring for Improved Cross-Lingual Speech Emotion Recognition [58.74986434825755]
言語間音声の感情認識は、音韻変動と話者固有の表現スタイルの違いにより難しい課題である。本研究では,感情表現を音素レベルと話者レベルで整列させる話者スタイルの音素アンカーフレームワークを提案する。本手法は,グラフに基づくクラスタリングにより,感情特異的な話者コミュニティを構築し,話者の特徴を抽出する。
論文参考訳（メタデータ） (2025-09-19T21:03:21Z)
VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。 VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文参考訳（メタデータ） (2025-05-05T03:00:51Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。 4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2025-03-26T18:46:18Z)
Emotional Listener Portrait: Realistic Listener Motion Simulation in Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。 ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文参考訳（メタデータ） (2023-09-29T18:18:32Z)
Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文参考訳（メタデータ） (2023-08-28T07:11:27Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)
Multi-Classifier Interactive Learning for Ambiguous Speech Emotion Recognition [9.856709988128515]
曖昧な発話感情に対処するために,MCIL (Multi-classifier Interactive Learning) 法を提案する。 MCILは、曖昧な感情の無矛盾な認識を持つ複数の個人を模倣し、新しい曖昧なラベルを構築する。実験では、MCILは各分類器のパフォーマンスを向上させるだけでなく、認識の一貫性を中程度から実質的に向上させる。
論文参考訳（メタデータ） (2020-12-10T02:58:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。