論文の概要: XEmoGPT: An Explainable Multimodal Emotion Recognition Framework with Cue-Level Perception and Reasoning
- arxiv url: http://arxiv.org/abs/2602.05496v1
- Date: Thu, 05 Feb 2026 09:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.874587
- Title: XEmoGPT: An Explainable Multimodal Emotion Recognition Framework with Cue-Level Perception and Reasoning
- Title(参考訳): XEmoGPT:Cue-Level Perception and Reasoningを用いた説明可能なマルチモーダル感情認識フレームワーク
- Authors: Hanwen Zhang, Yao Liu, Peiyuan Jiang, Lang Junjie, Xie Jun, Yihui He, Yajiao Deng, Siyu Du, Qiao Liu,
- Abstract要約: XEmoGPT(XEmoGPT)は感情的手がかりに対する知覚と推論の両立が可能な新しいEMERフレームワークである。
我々は,XEmoGPTにマルチモーダルな感情的手がかりを推論する方法を教えるために,大規模なデータセットEmoCueを構築した。
実験結果から,XEmoGPTは感情的キュー知覚と推論の両方において強い性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 7.204821736879453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable Multimodal Emotion Recognition plays a crucial role in applications such as human-computer interaction and social media analytics. However, current approaches struggle with cue-level perception and reasoning due to two main challenges: 1) general-purpose modality encoders are pretrained to capture global structures and general semantics rather than fine-grained emotional cues, resulting in limited sensitivity to emotional signals; and 2) available datasets usually involve a trade-off between annotation quality and scale, which leads to insufficient supervision for emotional cues and ultimately limits cue-level reasoning. Moreover, existing evaluation metrics are inadequate for assessing cue-level reasoning performance. To address these challenges, we propose eXplainable Emotion GPT (XEmoGPT), a novel EMER framework capable of both perceiving and reasoning over emotional cues. It incorporates two specialized modules: the Video Emotional Cue Bridge (VECB) and the Audio Emotional Cue Bridge (AECB), which enhance the video and audio encoders through carefully designed tasks for fine-grained emotional cue perception. To further support cue-level reasoning, we construct a large-scale dataset, EmoCue, designed to teach XEmoGPT how to reason over multimodal emotional cues. In addition, we introduce EmoCue-360, an automated metric that extracts and matches emotional cues using semantic similarity, and release EmoCue-Eval, a benchmark of 400 expert-annotated samples covering diverse emotional scenarios. Experimental results show that XEmoGPT achieves strong performance in both emotional cue perception and reasoning.
- Abstract(参考訳): 説明可能なマルチモーダル感情認識は、人間とコンピュータのインタラクションやソーシャルメディア分析といった応用において重要な役割を果たす。
しかし、現在のアプローチは2つの主な課題により、キューレベルの認識と推論に苦慮している。
1) 汎用モダリティエンコーダは、微粒な感情的な手がかりではなく、グローバルな構造や一般的な意味を捉え、感情的な信号に敏感な結果をもたらすように事前訓練されている。
2) 利用可能なデータセットは通常、アノテーションの品質とスケールのトレードオフが伴うため、感情的な手がかりの監視が不十分になり、最終的にキューレベルの推論が制限される。
さらに、既存の評価指標はキューレベルの推論性能を評価するのに不十分である。
これらの課題に対処するために,感情的手がかりを認識・推論できる新しいEMERフレームワークであるeXplainable Emotion GPT (XEmoGPT)を提案する。
Video Emotional Cue Bridge(VECB)とAudio Emotional Cue Bridge(AECB)という2つの特殊なモジュールが組み込まれている。
クエレベルの推論をさらに支援するために、XEmoGPTにマルチモーダルな感情的手がかりを推論する方法を教えるために設計された大規模なデータセットであるEmoCueを構築した。
さらに,意味的類似性を用いて感情的手がかりを抽出・マッチングする自動尺度であるEmoCue-360を導入し,多様な感情的シナリオを網羅した400名の専門家アノテートサンプルのベンチマークであるEmoCue-Evalをリリースする。
実験結果から,XEmoGPTは感情的キュー知覚と推論の両方において強い性能を発揮することが示された。
関連論文リスト
- Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding [45.13650362585136]
Emotion-LLaMAv2 と MMEVerse のベンチマークを行い、感情認識と推論のための標準化された評価設定とともにエンドツーエンドのパイプラインを構築した。
エンドツーエンドのマルチビューエンコーダは、外部顔検出を排除し、よりリッチな空間的および時間的マルチビュートークンを介して、ニュアンス化された感情的手がかりをキャプチャする。
LLaMA2バックボーン内における認識と認識のカリキュラムのチューニングスキームは、感情認識と自由形式の感情推論を統一する。
論文 参考訳(メタデータ) (2026-01-23T05:02:43Z) - VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models [46.591026037722436]
本稿では,基本的属性認識,表現分析,高レベルの感情理解を統一する感情的手がかり誘導推論フレームワークを提案する。
我々のアプローチの核心は、感情推論と指示追従のために特別に設計されたビデオ感情基盤モデル(VidEmo)のファミリーである。
基礎的なデータ基盤を確立し,210万の多様な命令ベースのサンプルからなる感情中心の微粒化データセットを導入する。
論文 参考訳(メタデータ) (2025-11-04T16:31:09Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。
我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。