論文の概要: EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.04424v1
- Date: Thu, 06 Feb 2025 18:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 18:29:32.892366
- Title: EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models
- Title(参考訳): EmoBench-M:マルチモーダル大言語モデルのための感情知能のベンチマーク
- Authors: He Hu, Yucheng Zhou, Lianzhong You, Hongbo Xu, Qianning Wang, Zheng Lian, Fei Richard Yu, Fei Ma, Laizhong Cui,
- Abstract要約: EmoBench-Mは、マルチモーダル大言語モデル(MLLM)の感情知能(EI)能力を評価するために設計された新しいベンチマークである。
EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示している。
- 参考スコア(独自算出の注目度): 27.195518991292488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the integration of Multimodal large language models (MLLMs) into robotic systems and various AI applications, embedding emotional intelligence (EI) capabilities into these models is essential for enabling robots to effectively address human emotional needs and interact seamlessly in real-world scenarios. Existing static, text-based, or text-image benchmarks overlook the multimodal complexities of real-world interactions and fail to capture the dynamic, multimodal nature of emotional expressions, making them inadequate for evaluating MLLMs' EI. Based on established psychological theories of EI, we build EmoBench-M, a novel benchmark designed to evaluate the EI capability of MLLMs across 13 valuation scenarios from three key dimensions: foundational emotion recognition, conversational emotion understanding, and socially complex emotion analysis. Evaluations of both open-source and closed-source MLLMs on EmoBench-M reveal a significant performance gap between them and humans, highlighting the need to further advance their EI capabilities. All benchmark resources, including code and datasets, are publicly available at https://emo-gml.github.io/.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)をロボットシステムやさまざまなAIアプリケーションに統合することにより、ロボットが人間の感情的なニーズに効果的に対処し、現実世界のシナリオでシームレスに対話できるように、これらのモデルに感情的知能(EI)機能を組み込むことが不可欠である。
既存の静的、テキストベース、テキストイメージのベンチマークは、実世界の相互作用のマルチモーダルな複雑さを見落とし、感情表現の動的でマルチモーダルな性質を捉えず、MLLMのEIを評価するのに不十分である。
EIの確立した心理学的理論に基づいて、基礎的感情認識、会話的感情理解、社会的に複雑な感情分析という3つの重要な側面から、13のアセスメントシナリオにおけるMLLMのEI能力を評価するために設計された新しいベンチマークであるEmoBench-Mを構築した。
EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示し、EI機能をさらに強化する必要性を強調している。
コードやデータセットを含むすべてのベンチマークリソースはhttps://emo-gml.github.io/で公開されている。
関連論文リスト
- AI with Emotions: Exploring Emotional Expressions in Large Language Models [0.0]
大きな言語モデル(LLM)は、特定の感情状態で質問に答えるエージェントとしてロールプレイを行う。
ラッセルの「サイクムプレックス」モデルは、眠気(覚醒)と快楽(静寂)の軸に沿った感情を特徴づける。
評価の結果, 生成した回答の感情状態は, 仕様と一致していた。
論文 参考訳(メタデータ) (2025-04-20T18:49:25Z) - Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models [35.24458725308099]
感情の反応を駆動する因果的要因に着目した感情解釈(EI)を提案する。
従来の感情認識とは異なり、EIタスクは単なるラベル付けではなくトリガーについての推論を必要とする。
EIBenchは1,615の基本的なEIサンプルと50の複雑なEIサンプルを含む大規模なベンチマークである。
論文 参考訳(メタデータ) (2025-04-10T07:33:49Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。