論文の概要: Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding
- arxiv url: http://arxiv.org/abs/2601.16449v1
- Date: Fri, 23 Jan 2026 05:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.54583
- Title: Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding
- Title(参考訳): Emotion-LLaMAv2とMMEVerse:マルチモーダル感情理解のための新しいフレームワークとベンチマーク
- Authors: Xiaojiang Peng, Jingyi Chen, Zebang Cheng, Bao Peng, Fengyi Wu, Yifei Dong, Shuyuan Tu, Qiyu Hu, Huiting Huang, Yuxiang Lin, Jun-Yan He, Kai Wang, Zheng Lian, Zhi-Qi Cheng,
- Abstract要約: Emotion-LLaMAv2 と MMEVerse のベンチマークを行い、感情認識と推論のための標準化された評価設定とともにエンドツーエンドのパイプラインを構築した。
エンドツーエンドのマルチビューエンコーダは、外部顔検出を排除し、よりリッチな空間的および時間的マルチビュートークンを介して、ニュアンス化された感情的手がかりをキャプチャする。
LLaMA2バックボーン内における認識と認識のカリキュラムのチューニングスキームは、感情認識と自由形式の感情推論を統一する。
- 参考スコア(独自算出の注目度): 45.13650362585136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human emotions from multimodal signals poses a significant challenge in affective computing and human-robot interaction. While multimodal large language models (MLLMs) have excelled in general vision-language tasks, their capabilities in emotional reasoning remain limited. The field currently suffers from a scarcity of large-scale datasets with high-quality, descriptive emotion annotations and lacks standardized benchmarks for evaluation. Our preliminary framework, Emotion-LLaMA, pioneered instruction-tuned multimodal learning for emotion reasoning but was restricted by explicit face detectors, implicit fusion strategies, and low-quality training data with limited scale. To address these limitations, we present Emotion-LLaMAv2 and the MMEVerse benchmark, establishing an end-to-end pipeline together with a standardized evaluation setting for emotion recognition and reasoning. Emotion-LLaMAv2 introduces three key advances. First, an end-to-end multiview encoder eliminates external face detection and captures nuanced emotional cues via richer spatial and temporal multiview tokens. Second, a Conv Attention pre-fusion module is designed to enable simultaneous local and global multimodal feature interactions external to the LLM backbone. Third, a perception-to-cognition curriculum instruction tuning scheme within the LLaMA2 backbone unifies emotion recognition and free-form emotion reasoning. To support large-scale training and reproducible evaluation, MMEVerse aggregates twelve publicly available emotion datasets, including IEMOCAP, MELD, DFEW, and MAFW, into a unified multimodal instruction format. The data are re-annotated via a multi-agent pipeline involving Qwen2 Audio, Qwen2.5 VL, and GPT 4o, producing 130k training clips and 36k testing clips across 18 evaluation benchmarks.
- Abstract(参考訳): マルチモーダル信号から人間の感情を理解することは、感情コンピューティングと人間とロボットの相互作用において重要な課題となる。
マルチモーダル大規模言語モデル(MLLM)は、一般的な視覚言語タスクにおいて優れているが、感情的推論におけるそれらの能力は依然として限られている。
この分野は現在、高品質で記述的な感情アノテーションを備えた大規模データセットの不足に悩まされており、評価のための標準ベンチマークが欠如している。
予備的なフレームワークであるEmotion-LLaMAは、感情推論のための命令調整型マルチモーダル学習の先駆者であるが、明示的な顔検出、暗黙の融合戦略、限られたスケールでの低品質トレーニングデータによって制限された。
これらの制約に対処するため、感情認識と推論のための標準化された評価設定とともに、エンド・ツー・エンドのパイプラインを確立するEmotion-LLaMAv2とMMEVerseベンチマークを提案する。
Emotion-LLaMAv2は3つの重要な進歩をもたらす。
第一に、エンド・ツー・エンドのマルチビューエンコーダは外部顔検出を排除し、よりリッチな空間的・時間的マルチビュートークンを介してニュアンス化された感情的手がかりをキャプチャする。
第二に、Conv Attention Pre-fusionモジュールは、LLMバックボーンの外部の局所的およびグローバルなマルチモーダルフィーチャの同時相互作用を可能にするように設計されている。
第3に、LLaMA2バックボーン内の認識から認識までのカリキュラム指導チューニングスキームは、感情認識と自由形式の感情推論を統一する。
大規模なトレーニングと再現可能な評価をサポートするため、MMEVerseはIEMOCAP、MELD、DFEW、MAFWを含む12の公開された感情データセットを統合マルチモーダル命令形式に集約する。
データは、Qwen2 Audio、Qwen2.5 VL、GPT 4oを含むマルチエージェントパイプラインを通じて再注釈され、18評価ベンチマークで130kのトレーニングクリップと36kのテストクリップを生成する。
関連論文リスト
- MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。
我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。