論文の概要: MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.09210v1
- Date: Mon, 11 Aug 2025 03:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.620507
- Title: MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models
- Title(参考訳): MME-Emotion:マルチモーダル大言語モデルにおける感情インテリジェンスのための全体的評価ベンチマーク
- Authors: Fan Zhang, Zebang Cheng, Chong Deng, Haoxuan Li, Zheng Lian, Qian Chen, Huadai Liu, Wen Wang, Yi-Fan Zhang, Renrui Zhang, Ziyu Guo, Zhihong Zhu, Hao Wu, Haixin Wang, Yefeng Zheng, Xiaojiang Peng, Xian Wu, Kun Wang, Xiangang Li, Jieping Ye, Pheng-Ann Heng,
- Abstract要約: MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
- 参考スコア(独自算出の注目度): 108.61337743051483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have catalyzed transformative progress in affective computing, enabling models to exhibit emergent emotional intelligence. Despite substantial methodological progress, current emotional benchmarks remain limited, as it is still unknown: (a) the generalization abilities of MLLMs across distinct scenarios, and (b) their reasoning capabilities to identify the triggering factors behind emotional states. To bridge these gaps, we present \textbf{MME-Emotion}, a systematic benchmark that assesses both emotional understanding and reasoning capabilities of MLLMs, enjoying \textit{scalable capacity}, \textit{diverse settings}, and \textit{unified protocols}. As the largest emotional intelligence benchmark for MLLMs, MME-Emotion contains over 6,000 curated video clips with task-specific questioning-answering (QA) pairs, spanning broad scenarios to formulate eight emotional tasks. It further incorporates a holistic evaluation suite with hybrid metrics for emotion recognition and reasoning, analyzed through a multi-agent system framework. Through a rigorous evaluation of 20 advanced MLLMs, we uncover both their strengths and limitations, yielding several key insights: \ding{182} Current MLLMs exhibit unsatisfactory emotional intelligence, with the best-performing model achieving only $39.3\%$ recognition score and $56.0\%$ Chain-of-Thought (CoT) score on our benchmark. \ding{183} Generalist models (\emph{e.g.}, Gemini-2.5-Pro) derive emotional intelligence from generalized multimodal understanding capabilities, while specialist models (\emph{e.g.}, R1-Omni) can achieve comparable performance through domain-specific post-training adaptation. By introducing MME-Emotion, we hope that it can serve as a foundation for advancing MLLMs' emotional intelligence in the future.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、感情コンピューティングにおける変換的進歩を触媒し、モデルが突発的な感情知性を示すことを可能にする。
実質的な方法論的進歩にもかかわらず、現在の感情的ベンチマークは依然として限定的であり、まだ不明である。
(a)異なるシナリオにまたがるMLLMの一般化能力、及び
b)感情状態の背後にある要因を識別する推論能力。
これらのギャップを埋めるために,MLLMの感情的理解能力と推論能力の両方を評価する,系統的なベンチマークである‘textbf{MME-Emotion} を提示する。
MLLMの感情インテリジェンスベンチマークとしては最大であり、MME-Emotionには6000以上のビデオクリップとタスク固有の質問-回答(QA)ペアが含まれており、8つの感情的タスクを定式化するための広いシナリオにまたがっている。
さらに、マルチエージェントシステムフレームワークを通じて分析された感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートも組み込まれている。
20の高度なMLLMの厳格な評価を通じて、それらの長所と短所の両方を明らかにし、いくつかの重要な洞察を得た: \ding{182} 現在のMLLMは、満足のいく感情的な知性を示し、最高のパフォーマンスモデルは、ベンチマークでわずか39.3\%の認識スコアと56.0\%のChain-of-Thought(CoT)スコアを達成している。
\ding{183} Generalist Model (\emph{e g }, Gemini-2.5-Pro)は、一般化されたマルチモーダル理解能力から感情的インテリジェンスを導出する一方、スペシャリストモデル (\emph{e g }, R1-Omni) はドメイン固有のポストトレーニング適応によって同等のパフォーマンスを達成することができる。
MME-Emotionを導入することで、今後のMLLMの感情知性向上の基盤となることを願っている。
関連論文リスト
- AI with Emotions: Exploring Emotional Expressions in Large Language Models [0.0]
大きな言語モデル(LLM)は、特定の感情状態で質問に答えるエージェントとしてロールプレイを行う。
ラッセルの「サイクムプレックス」モデルは、眠気(覚醒)と快楽(静寂)の軸に沿った感情を特徴づける。
評価の結果, 生成した回答の感情状態は, 仕様と一致していた。
論文 参考訳(メタデータ) (2025-04-20T18:49:25Z) - EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models [27.195518991292488]
EmoBench-Mは、マルチモーダル大言語モデル(MLLM)の感情知能(EI)能力を評価するために設計された新しいベンチマークである。
EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示している。
論文 参考訳(メタデータ) (2025-02-06T18:13:35Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。