論文の概要: Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach
- arxiv url: http://arxiv.org/abs/2509.21950v1
- Date: Fri, 26 Sep 2025 06:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.241539
- Title: Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach
- Title(参考訳): MLLMの視覚的感情評価のカスタマイズ:オープン語彙,多面的,スケーラブルなアプローチ
- Authors: Daiqing Wu, Dongbao Yang, Sicheng Zhao, Can Ma, Yu Zhou,
- Abstract要約: この矛盾は, 既存の評価手法の制約に起因していると論じる。
これらの制約を克服する感情文判断タスクを提案する。
人間の努力を最小限に抑えて感情中心の文を効率的に構築する自動パイプラインを考案する。
- 参考スコア(独自算出の注目度): 29.502292089901825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have achieved exceptional performance across diverse tasks, continually surpassing previous expectations regarding their capabilities. Nevertheless, their proficiency in perceiving emotions from images remains debated, with studies yielding divergent results in zero-shot scenarios. We argue that this inconsistency stems partly from constraints in existing evaluation methods, including the oversight of plausible responses, limited emotional taxonomies, neglect of contextual factors, and labor-intensive annotations. To facilitate customized visual emotion evaluation for MLLMs, we propose an Emotion Statement Judgment task that overcomes these constraints. Complementing this task, we devise an automated pipeline that efficiently constructs emotion-centric statements with minimal human effort. Through systematically evaluating prevailing MLLMs, our study showcases their stronger performance in emotion interpretation and context-based emotion judgment, while revealing relative limitations in comprehending perception subjectivity. When compared to humans, even top-performing MLLMs like GPT4o demonstrate remarkable performance gaps, underscoring key areas for future improvement. By developing a fundamental evaluation framework and conducting a comprehensive MLLM assessment, we hope this work contributes to advancing emotional intelligence in MLLMs. Project page: https://github.com/wdqqdw/MVEI.
- Abstract(参考訳): 近年,MLLM (Multimodal Large Language Models) は様々なタスクにまたがって例外的な性能を達成しており,その能力に対する期待を継続的に上回っている。
それでも、イメージから感情を知覚する能力については議論があり、ゼロショットのシナリオで異なる結果をもたらす研究がある。
この不整合性は, 既往の評価手法の制約に起因し, 既往の応答の監視, 感情的分類の制限, 文脈的要因の無視, 労働集約的アノテーションなどが原因であると考えられる。
MLLMの視覚的感情評価のカスタマイズを容易にするために,これらの制約を克服する感情文判断タスクを提案する。
このタスクを補完し、人間の最小限の努力で感情中心のステートメントを効率的に構築する自動化パイプラインを考案する。
本研究は、MLLMを系統的に評価することにより、感情解釈と文脈に基づく感情判断において、より強いパフォーマンスを示すとともに、知覚主観性を理解する上での相対的制限を明らかにする。
人間と比較しても、GPT4oのような最高パフォーマンスのMLLMでさえ、パフォーマンスの差が顕著であり、将来の改善の鍵となる領域を強調している。
基本的な評価枠組みを開発し,総合的なMLLM評価を行うことで,MLLMの感情知能向上に寄与することが期待できる。
プロジェクトページ: https://github.com/wdqqdw/MVEI.com
関連論文リスト
- MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Evaluating Vision-Language Models for Emotion Recognition [1.7409710986849658]
本稿では、画像から誘発された感情を認識するために、VLM(Large Vision-Language Models)を初めて包括的に評価する。
いくつかの実験を通して、感情認識性能が依存する重要な要因を明らかにし、その過程でVLMが犯した様々な誤りを特徴付ける。
論文 参考訳(メタデータ) (2025-02-08T18:25:31Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Retrieving Implicit and Explicit Emotional Events Using Large Language Models [4.245183693179267]
大規模言語モデル (LLM) は近年,その優れたパフォーマンスから注目されている。
本研究では,LLMのコモンセンスにおける感情検索能力について検討する。
論文 参考訳(メタデータ) (2024-10-24T19:56:28Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。