論文の概要: EmoBench-Reddit: A Hierarchical Benchmark for Evaluating the Emotional Intelligence of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.11101v1
- Date: Sun, 14 Sep 2025 05:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.919042
- Title: EmoBench-Reddit: A Hierarchical Benchmark for Evaluating the Emotional Intelligence of Multimodal Large Language Models
- Title(参考訳): EmoBench-Reddit: マルチモーダル大規模言語モデルの感情知性を評価する階層ベンチマーク
- Authors: Haokun Li, Yazhou Zhang, Jizhi Ding, Qiuchi Li, Peng Zhang,
- Abstract要約: EmoBench-Redditは、マルチモーダル感情理解のための新しい階層型ベンチマークである。
データセットは、ソーシャルメディアプラットフォームRedditから350の精巧にキュレートされたサンプルで構成されている。
各データポイントには6つの複数選択の質問と、困難を増すための1つのオープンな質問がある。
- 参考スコア(独自算出の注目度): 9.870930749379932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of Multimodal Large Language Models (MLLMs), they have demonstrated exceptional capabilities across a variety of vision-language tasks. However, current evaluation benchmarks predominantly focus on objective visual question answering or captioning, inadequately assessing the models' ability to understand complex and subjective human emotions. To bridge this gap, we introduce EmoBench-Reddit, a novel, hierarchical benchmark for multimodal emotion understanding. The dataset comprises 350 meticulously curated samples from the social media platform Reddit, each containing an image, associated user-provided text, and an emotion category (sad, humor, sarcasm, happy) confirmed by user flairs. We designed a hierarchical task framework that progresses from basic perception to advanced cognition, with each data point featuring six multiple-choice questions and one open-ended question of increasing difficulty. Perception tasks evaluate the model's ability to identify basic visual elements (e.g., colors, objects), while cognition tasks require scene reasoning, intent understanding, and deep empathy integrating textual context. We ensured annotation quality through a combination of AI assistance (Claude 4) and manual verification.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩により、様々な視覚言語タスクにまたがる例外的な能力を示した。
しかし、現在の評価ベンチマークは主に客観的な視覚的質問応答やキャプションに焦点を当てており、複雑で主観的な人間の感情を理解する能力が不十分である。
このギャップを埋めるために、マルチモーダル感情理解のための新しい階層的ベンチマークであるEmoBench-Redditを紹介します。
データセットは、ソーシャルメディアプラットフォームRedditの350の細心の注意を払ってキュレートされたサンプルからなり、それぞれに画像、関連するユーザー提供テキスト、およびユーザーフレアによって確認された感情カテゴリー(sad, humor, sarcasm, happy)が含まれている。
基本認識から高度な認知へと進化する階層的なタスク・フレームワークを設計し、各データポイントには6つの複数選択質問と1つのオープンな課題が盛り込まれている。
知覚タスクは、基本的な視覚的要素(例えば色、オブジェクト)を識別する能力を評価する一方で、認識タスクはシーン推論、意図の理解、テキストコンテキストを統合する深い共感を必要とする。
我々は、AIアシスト(Claude 4)と手動検証を組み合わせることで、アノテーションの品質を保証した。
関連論文リスト
- Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering [11.271123465926301]
マルチモーダルな大言語モデル(MLLM)は、ビジュアル質問回答において複雑な推論タスクに苦戦している。
質問の複雑さに動的に適応するプラグイン・アンド・プレイアプローチである FOCUS を提案する。
ScienceQA、TextQA、VizWiz、MMEの4つのベンチマークの実験では、FOCUSはオープンソースとブラックボックス両方のMLLMの性能を一貫して改善している。
論文 参考訳(メタデータ) (2025-06-01T03:15:29Z) - Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。
我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - Grounding Task Assistance with Multimodal Cues from a Single Demonstration [17.975173937253494]
MICA(Multimodal Interactive Contextualized Assistance)は、視線と音声の手がかりを統合することで、タスク支援のための会話エージェントを改善するフレームワークである。
リアルタイムチャット支援タスク複製から得られる質問に対する評価は,複数モーダルキューがフレームベース検索よりも応答品質を著しく向上することを示している。
論文 参考訳(メタデータ) (2025-05-02T20:43:11Z) - Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models [35.24458725308099]
感情の反応を駆動する因果的要因に着目した感情解釈(EI)を提案する。
従来の感情認識とは異なり、EIタスクは単なるラベル付けではなくトリガーについての推論を必要とする。
EIBenchは1,615の基本的なEIサンプルと50の複雑なEIサンプルを含む大規模なベンチマークである。
論文 参考訳(メタデータ) (2025-04-10T07:33:49Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。