論文の概要: Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach
- arxiv url: http://arxiv.org/abs/2509.21950v1
- Date: Fri, 26 Sep 2025 06:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.241539
- Title: Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach
- Title(参考訳): MLLMの視覚的感情評価のカスタマイズ:オープン語彙,多面的,スケーラブルなアプローチ
- Authors: Daiqing Wu, Dongbao Yang, Sicheng Zhao, Can Ma, Yu Zhou,
- Abstract要約: この矛盾は, 既存の評価手法の制約に起因していると論じる。
これらの制約を克服する感情文判断タスクを提案する。
人間の努力を最小限に抑えて感情中心の文を効率的に構築する自動パイプラインを考案する。
- 参考スコア(独自算出の注目度): 29.502292089901825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have achieved exceptional performance across diverse tasks, continually surpassing previous expectations regarding their capabilities. Nevertheless, their proficiency in perceiving emotions from images remains debated, with studies yielding divergent results in zero-shot scenarios. We argue that this inconsistency stems partly from constraints in existing evaluation methods, including the oversight of plausible responses, limited emotional taxonomies, neglect of contextual factors, and labor-intensive annotations. To facilitate customized visual emotion evaluation for MLLMs, we propose an Emotion Statement Judgment task that overcomes these constraints. Complementing this task, we devise an automated pipeline that efficiently constructs emotion-centric statements with minimal human effort. Through systematically evaluating prevailing MLLMs, our study showcases their stronger performance in emotion interpretation and context-based emotion judgment, while revealing relative limitations in comprehending perception subjectivity. When compared to humans, even top-performing MLLMs like GPT4o demonstrate remarkable performance gaps, underscoring key areas for future improvement. By developing a fundamental evaluation framework and conducting a comprehensive MLLM assessment, we hope this work contributes to advancing emotional intelligence in MLLMs. Project page: https://github.com/wdqqdw/MVEI.
- Abstract(参考訳): 近年,MLLM (Multimodal Large Language Models) は様々なタスクにまたがって例外的な性能を達成しており,その能力に対する期待を継続的に上回っている。
それでも、イメージから感情を知覚する能力については議論があり、ゼロショットのシナリオで異なる結果をもたらす研究がある。
この不整合性は, 既往の評価手法の制約に起因し, 既往の応答の監視, 感情的分類の制限, 文脈的要因の無視, 労働集約的アノテーションなどが原因であると考えられる。
MLLMの視覚的感情評価のカスタマイズを容易にするために,これらの制約を克服する感情文判断タスクを提案する。
このタスクを補完し、人間の最小限の努力で感情中心のステートメントを効率的に構築する自動化パイプラインを考案する。
本研究は、MLLMを系統的に評価することにより、感情解釈と文脈に基づく感情判断において、より強いパフォーマンスを示すとともに、知覚主観性を理解する上での相対的制限を明らかにする。
人間と比較しても、GPT4oのような最高パフォーマンスのMLLMでさえ、パフォーマンスの差が顕著であり、将来の改善の鍵となる領域を強調している。
基本的な評価枠組みを開発し,総合的なMLLM評価を行うことで,MLLMの感情知能向上に寄与することが期待できる。
プロジェクトページ: https://github.com/wdqqdw/MVEI.com
関連論文リスト
- EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models [62.3977734456669]
マルチモーダル大規模言語モデル(MLLM)の感情的推論能力を高めるためのフレームワークとして,情緒的推論のための反射強化学習(EMO-R3)を提案する。
構造化された感情的思考を導入し、構造化された解釈可能な方法で段階的に感情的推論を行い、そのモデルが視覚的テキストの一貫性と感情的コヒーレンスに基づいてその推論を再評価できる反射的感情的回帰を設計する。
EMO-R3はMLLMの解釈可能性と感情的インテリジェンスの両方を大幅に改善し、複数の視覚的感情理解ベンチマークにおいて優れた性能を達成する。
論文 参考訳(メタデータ) (2026-02-27T08:42:52Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - Fluent but Unfeeling: The Emotional Blind Spots of Language Models [1.248728117157669]
LLM(Large Language Models)が人間の感情と微粒なレベルで一致しているかどうかを評価する上で、重要なギャップが残っている。
Redditコミュニティから収集されたベンチマークデータセットであるExpressを紹介します。
包括的評価フレームワークは、予測された感情条件を検証し、確立された感情理論を用いて、それらを8つの基本的な感情に分解する。
論文 参考訳(メタデータ) (2025-09-11T16:31:13Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Don't Get Too Excited -- Eliciting Emotions in LLMs [1.8399318639816038]
本稿では,大規模言語モデル(LLM)における影響制御の課題について考察する。
我々は,その感情表現範囲を評価するために,最先端のオープンウェイトLLMを評価した。
モデルの能力を定量化し、幅広い感情のスペクトルを表現し、相互作用の間どのように変動するかを定量化する。
論文 参考訳(メタデータ) (2025-03-04T10:06:41Z) - Evaluating Vision-Language Models for Emotion Recognition [1.7409710986849658]
本稿では、画像から誘発された感情を認識するために、VLM(Large Vision-Language Models)を初めて包括的に評価する。
いくつかの実験を通して、感情認識性能が依存する重要な要因を明らかにし、その過程でVLMが犯した様々な誤りを特徴付ける。
論文 参考訳(メタデータ) (2025-02-08T18:25:31Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Retrieving Implicit and Explicit Emotional Events Using Large Language Models [4.245183693179267]
大規模言語モデル (LLM) は近年,その優れたパフォーマンスから注目されている。
本研究では,LLMのコモンセンスにおける感情検索能力について検討する。
論文 参考訳(メタデータ) (2024-10-24T19:56:28Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。