論文の概要: MultiEmo-Bench: Multi-label Visual Emotion Analysis for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.14635v1
- Date: Thu, 14 May 2026 09:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.763048
- Title: MultiEmo-Bench: Multi-label Visual Emotion Analysis for Multi-modal Large Language Models
- Title(参考訳): Multi-Emo-Bench:マルチモーダル大言語モデルのためのマルチラベル視覚感情分析
- Authors: Tianwei Chen, Takuya Furusawa, Yuki Hirakawa, Ryotaro Shimizu, Mo Fan, Takashi Wada,
- Abstract要約: 視覚的感情分析のための新しいベンチマークデータセットを提案する。
私たちはイメージごとに20ドルのアノテーションを雇い、イメージから感じるすべての感情を選択するように頼んでいます。
得られたデータセットには、10,344ドルの画像と、8つの感情にまたがる236,998ドルの有効票が含まれている。
- 参考スコア(独自算出の注目度): 6.924490096929709
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces a multi-label visual emotion analysis benchmark dataset for comprehensively evaluating the ability of multimodal large language models (MLLMs) to predict the emotions evoked by images. Recent user studies report an unintuitive finding: humans may prefer the predictions of MLLMs over the labels in existing datasets. We argue that this phenomenon stems from the suboptimal annotation scheme used in existing datasets, where each annotator is shown a single candidate emotion for each image and judges whether it is evoked or not. This approach is clearly limited because a single image can evoke multiple emotions with varying intensities. As a result, evaluations based on these datasets may underestimate the capabilities of MLLMs, yet an appropriate benchmark for evaluating such models remains lacking. To address this issue, we introduce a new multi-label benchmark dataset for visual emotion analysis toward MLLMs evaluation. We hire $20$ annotators per image and ask them to select all emotions they feel from an image. Then, we aggregate the votes across all annotators, providing a more reliable and representative dataset labeled with a distribution of emotions. The resulting dataset contains $10,344$ images with $236,998$ valid votes across eight emotions. Based on this benchmark dataset, we evaluate several recent models, including Qwen3-VL, OpenAI's GPT, Gemini, and Claude. We assess model performance on both dominant emotion prediction and emotion distribution prediction. Our results demonstrate the progress achieved by recent MLLMs while also indicating that substantial room for improvement remains. Furthermore, our experiments with LLM-as-a-judge show that the method does not consistently improve MLLMs' performance, indicating its limitations for the subjective task of visual emotion analysis.
- Abstract(参考訳): 本稿では,多言語大言語モデル(MLLM)が画像から誘発される感情を予測する能力を総合的に評価するための,多言語視覚感情分析ベンチマークデータセットを提案する。
最近のユーザ調査では、人間が既存のデータセットのラベルよりもMLLMの予測を好むという直感的な発見が報告されている。
この現象は、各アノテータが各画像に対して単一の候補感情を示し、それが誘発されるか否かを判断する、既存のデータセットで使用される準最適アノテーションスキームに起因している、と我々は主張する。
このアプローチは、単一のイメージがさまざまな強度で複数の感情を誘発できるため、明らかに制限されている。
その結果、これらのデータセットに基づく評価はMLLMの能力を過小評価するが、そのようなモデルを評価するための適切なベンチマークは依然として不足している。
この問題に対処するために、MLLM評価に向けた視覚的感情分析のための新しいマルチラベルベンチマークデータセットを提案する。
私たちはイメージごとに20ドルのアノテーションを雇い、イメージから感じるすべての感情を選択するように頼んでいます。
そして、すべてのアノテータに投票を集約し、感情の分布をラベル付けしたより信頼性が高く代表的なデータセットを提供する。
得られたデータセットには、10,344ドルの画像と、8つの感情にまたがる236,998ドルの有効票が含まれている。
このベンチマークデータセットに基づいて、Qwen3-VL、OpenAIのGPT、Gemini、Claudeなど、最近のモデルを評価した。
我々は、支配的な感情予測と感情分布予測の両方に基づいてモデル性能を評価する。
以上の結果から,近年のMLLMの進歩を示すとともに,改善の余地がかなり残っていることが示唆された。
さらに, LLM-as-a-judge を用いた実験により, MLLM の性能は一定に向上せず, 視覚的感情分析の主観的課題に対する限界が示唆された。
関連論文リスト
- Do Multimodal LLMs See Sentiment? [1.990154090209513]
MLLM(Multimodal Large Language Models)の感情推論能力を検討するために,MLLMsentという独自のフレームワークを提案する。
最近確立されたベンチマークの実験は、我々の提案が、最先端の結果を達成することを実証している。
論文 参考訳(メタデータ) (2025-08-23T02:11:46Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。
音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。
我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-16T12:27:05Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - LIME: Less Is More for MLLM Evaluation [36.29820380945517]
半自動パイプラインによるベンチマークであるLIME(Less Is More for MLLM Evaluation)を提案する。
このパイプラインは、非形式的なサンプルをフィルタリングし、イメージベースの理解を必要とするタスクに集中することで、回答のリークを取り除く。
実験の結果,LIMEはサンプル数を76%減らし,評価時間を77%減らした。
論文 参考訳(メタデータ) (2024-09-10T20:19:14Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - Reevaluating Data Partitioning for Emotion Detection in EmoWOZ [0.0]
EmoWozは、対話のための感情ラベルを提供するMultiWOZの拡張である。
MultiWOZは、当初別の目的のために分割され、新しい感情認識の目的を考えると、分布の変化が生じる。
この問題に対処し、データセットの分布を改善し、データセットシフトを減らすために、感情タグに基づく階層化サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T03:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。