論文の概要: EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11405v1
- Date: Fri, 16 May 2025 16:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.572091
- Title: EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models
- Title(参考訳): EmotionHallucer:マルチモーダル大言語モデルにおける感情幻覚の評価
- Authors: Bohao Xing, Xin Liu, Guoying Zhao, Chengyu Liu, Xiaolan Fu, Heikki Kälviäinen,
- Abstract要約: MLLMにおける感情幻覚を検出し解析するための最初のベンチマークであるEmotionHallucerを紹介する。
これに基づいて、感情心理学知識と実世界のマルチモーダル知覚という2つの次元から感情幻覚を評価する。
PEP-MEKフレームワークは,選択したモデル間で感情の幻覚検出を平均9.90%改善する。
- 参考スコア(独自算出の注目度): 17.710835703681873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion understanding is a critical yet challenging task. Recent advances in Multimodal Large Language Models (MLLMs) have significantly enhanced their capabilities in this area. However, MLLMs often suffer from hallucinations, generating irrelevant or nonsensical content. To the best of our knowledge, despite the importance of this issue, there has been no dedicated effort to evaluate emotion-related hallucinations in MLLMs. In this work, we introduce EmotionHallucer, the first benchmark for detecting and analyzing emotion hallucinations in MLLMs. Unlike humans, whose emotion understanding stems from the interplay of biology and social learning, MLLMs rely solely on data-driven learning and lack innate emotional instincts. Fortunately, emotion psychology provides a solid foundation of knowledge about human emotions. Building on this, we assess emotion hallucinations from two dimensions: emotion psychology knowledge and real-world multimodal perception. To support robust evaluation, we utilize an adversarial binary question-answer (QA) framework, which employs carefully crafted basic and hallucinated pairs to assess the emotion hallucination tendencies of MLLMs. By evaluating 38 LLMs and MLLMs on EmotionHallucer, we reveal that: i) most current models exhibit substantial issues with emotion hallucinations; ii) closed-source models outperform open-source ones in detecting emotion hallucinations, and reasoning capability provides additional advantages; iii) existing models perform better in emotion psychology knowledge than in multimodal emotion perception. As a byproduct, these findings inspire us to propose the PEP-MEK framework, which yields an average improvement of 9.90% in emotion hallucination detection across selected models. Resources will be available at https://github.com/xxtars/EmotionHallucer.
- Abstract(参考訳): 感情の理解は批判的だが難しい課題だ。
MLLM(Multimodal Large Language Models)の最近の進歩は、この分野におけるその能力を著しく向上させてきた。
しかし、MLLMは幻覚に悩まされ、無関係または無意味な内容を生成する。
我々の知る限りでは、この問題の重要性にもかかわらず、MLLMにおける感情関連幻覚を評価するための専門的な取り組みは行われていない。
本研究では,MLLMにおける感情幻覚を検出し解析するための最初のベンチマークであるEmotionHallucerを紹介する。
感情理解が生物学と社会学習の相互作用に由来する人間とは異なり、MLLMはデータ駆動学習にのみ依存し、本質的な感情の本能を欠いている。
幸いなことに、感情心理学は人間の感情に関する知識の確かな基盤を提供する。
これに基づいて、感情心理学知識と実世界のマルチモーダル知覚という2つの次元から感情幻覚を評価する。
そこで我々は,MLLMの感情幻覚傾向を評価するために,基本的および幻覚的ペアを慎重に構築した対数二分質問応答(QA)フレームワークを用いた。
EmotionHallucer 上で 38 LLM と MLLM を評価した結果,以下のことが判明した。
一 感情幻覚に関する重大な問題を示す現在のモデルのほとんどは、
二 クローズド・ソース・モデルは、感情の幻覚の検出においてオープンソース・モデルより優れ、推論能力は、さらなる利点をもたらす。
三 既存のモデルは、マルチモーダルな感情知覚よりも感情心理学の知識が優れていること。
副産物として,これらの知見からPEP-MEKフレームワークが提案され,選択されたモデル間で感情幻覚検出の9.90%が平均的に改善された。
リソースはhttps://github.com/xxtars/EmotionHallucer.comから入手できる。
関連論文リスト
- AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models [18.482881562645264]
この研究は、あいまいな感情を認識する上でのLarge Language Models(LLM)の可能性を探究する最初のものである。
我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
論文 参考訳(メタデータ) (2024-09-26T23:25:21Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Language-Specific Representation of Emotion-Concept Knowledge Causally
Supports Emotion Inference [44.126681295827794]
この研究は、大規模言語モデル(LLMs)として知られる人工知能の形式を用いて、言語に基づく感情の表現が、新しい状況の感情的意味に関する推論を生成するAIの能力に因果的に寄与するかどうかを評価する。
本研究は,LLMでも知覚モダ表現の欠如による感情の学習が可能であり,言語由来の感情概念知識の感情推論への寄与を強調した。
論文 参考訳(メタデータ) (2023-02-19T14:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。