論文の概要: EmoTrans: A Benchmark for Understanding, Reasoning, and Predicting Emotion Transitions in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2604.23348v1
- Date: Sat, 25 Apr 2026 15:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.288124
- Title: EmoTrans: A Benchmark for Understanding, Reasoning, and Predicting Emotion Transitions in Multimodal LLMs
- Title(参考訳): EmoTrans:マルチモーダルLDMにおける感情遷移の理解・推論・予測のためのベンチマーク
- Authors: He Hu, Tengjin Weng, Zebang Cheng, Yu Wang, Jiachen Luo, Björn Schuller, Zheng Lian, Laizhong Cui,
- Abstract要約: マルチモーダルビデオにおける感情動態理解のベンチマークであるEmoTransを提案する。
EmoTransには、注意深く収集され、手動で注釈付けされたビデオクリップが1000本含まれており、12の現実世界のシナリオをカバーしている。
我々はEmoTrans上で18種類の最先端MLLMの総合的な評価を行い,2つの主な知見を得た。
- 参考スコア(独自算出の注目度): 22.306059796734772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and generation, and are increasingly used in applications such as social robots and human-computer interaction, where understanding human emotions is essential. However, existing benchmarks mainly formulate emotion understanding as a static recognition problem, leaving it largely unclear whether current MLLMs can understand emotion as a dynamic process that evolves, shifts between states, and unfolds across diverse social contexts. To bridge this gap, we present EmoTrans, a benchmark for evaluating emotion dynamics understanding in multimodal videos. EmoTrans contains 1,000 carefully collected and manually annotated video clips, covering 12 real-world scenarios, and further provides over 3,000 task-specific question-answer (QA) pairs for fine-grained evaluation. The benchmark introduces four tasks, namely Emotion Change Detection (ECD), Emotion State Identification (ESI), Emotion Transition Reasoning (ETR), and Next Emotion Prediction (NEP), forming a progressive evaluation framework from coarse-grained detection to deeper reasoning and prediction. We conduct a comprehensive evaluation of 18 state-of-the-art MLLMs on EmoTrans and obtain two main findings. First, although current MLLMs show relatively stronger performance on coarse-grained emotion change detection, they still struggle with fine-grained emotion dynamics modeling. Second, socially complex settings, especially multi-person scenarios, remain substantially challenging, while reasoning-oriented variants do not consistently yield clear improvements. To facilitate future research, we publicly release the benchmark, evaluation protocol, and code at https://github.com/Emo-gml/EmoTrans.
- Abstract(参考訳): 近年のマルチモーダル・大規模言語モデル(MLLM)は、知覚、推論、生成において強力な能力を示しており、人間の感情を理解することが不可欠である社会ロボットや人間とコンピュータの相互作用のようなアプリケーションでますます利用されている。
しかし、既存のベンチマークは主に感情理解を静的認識問題として定式化しており、現在のMLLMが感情を進化させ、状態間を移動させ、様々な社会的文脈にまたがって展開する動的なプロセスとして理解できるかどうかはほとんど不明である。
このギャップを埋めるために,マルチモーダルビデオにおける感情動態理解のベンチマークであるEmoTransを提案する。
EmoTransには、注意深く収集され手動で注釈付けされたビデオクリップが1000あり、12の現実世界シナリオをカバーし、さらに3000以上のタスク固有の質問回答(QA)ペアがきめ細かな評価のために提供されている。
このベンチマークでは、感情変化検出(ECD)、感情状態同定(ESI)、感情遷移推論(ETR)、次の感情予測(NEP)という4つのタスクを導入し、粗粒度検出からより深い推論と予測まで、進歩的な評価フレームワークを構築している。
我々はEmoTrans上で18種類の最先端MLLMの総合的な評価を行い,2つの主な知見を得た。
第一に、現在のMLLMは、粗粒度感情変化検出において比較的強い性能を示すが、それでも細粒度感情ダイナミクスモデリングに苦慮している。
第二に、社会的に複雑な設定、特にマルチパーソンシナリオは、非常に困難なままであり、推論指向の変種は、常に明確な改善をもたらすわけではない。
今後の研究を容易にするため、ベンチマーク、評価プロトコル、コードをhttps://github.com/Emo-gml/EmoTransで公開しています。
関連論文リスト
- Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - Emotion Transfer with Enhanced Prototype for Unseen Emotion Recognition in Conversation [64.70874527264543]
会話における未知感情認識(UERC)タスクを初めて紹介する。
本稿では,プロトタイプベースの感情伝達フレームワークProEmoTransを提案する。
ProEmoTransは有望だが、依然として重要な課題に直面している。
論文 参考訳(メタデータ) (2025-08-27T03:16:16Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - EmoVerse: Exploring Multimodal Large Language Models for Sentiment and Emotion Understanding [5.3848462080869215]
Emotion Universe (EmoVerse) は、感情や感情に関連する幅広いタスクを扱うためのMLLMである。
EmoVerseは感情状態の根本原因を深く分析することができる。
また、Affective Multitask (AMT)データセットについても紹介する。
論文 参考訳(メタデータ) (2024-12-11T02:55:00Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。