Fugu-MT 論文翻訳(概要): Seeing is Not Understanding: A Benchmark on Perception-Cognition Disparities in Large Language Models

論文の概要: Seeing is Not Understanding: A Benchmark on Perception-Cognition Disparities in Large Language Models

arxiv url: http://arxiv.org/abs/2509.11101v3
Date: Tue, 23 Sep 2025 02:12:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-24 11:50:03.892378
Title: Seeing is Not Understanding: A Benchmark on Perception-Cognition Disparities in Large Language Models
Title（参考訳）: Seeing is not Understanding: ABenchmark on Perception-Cognition Disparities in Large Language Models
Authors: Haokun Li, Yazhou Zhang, Jizhi Ding, Qiuchi Li, Peng Zhang,
Abstract要約: EmoBench-Redditは、マルチモーダル感情理解のための新しい階層型ベンチマークである。データセットは、ソーシャルメディアプラットフォームRedditから350の精巧にキュレートされたサンプルで構成されている。各データポイントには6つの複数選択の質問と、困難を増すための1つのオープンな質問がある。
参考スコア（独自算出の注目度）: 9.870930749379932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid advancement of Multimodal Large Language Models (MLLMs), they have demonstrated exceptional capabilities across a variety of vision-language tasks. However, current evaluation benchmarks predominantly focus on objective visual question answering or captioning, inadequately assessing the models' ability to understand complex and subjective human emotions. To bridge this gap, we introduce EmoBench-Reddit, a novel, hierarchical benchmark for multimodal emotion understanding. The dataset comprises 350 meticulously curated samples from the social media platform Reddit, each containing an image, associated user-provided text, and an emotion category (sad, humor, sarcasm, happy) confirmed by user flairs. We designed a hierarchical task framework that progresses from basic perception to advanced cognition, with each data point featuring six multiple-choice questions and one open-ended question of increasing difficulty. Perception tasks evaluate the model's ability to identify basic visual elements (e.g., colors, objects), while cognition tasks require scene reasoning, intent understanding, and deep empathy integrating textual context. We ensured annotation quality through a combination of AI assistance (Claude 4) and manual verification.We conducted a comprehensive evaluation of nine leading MLLMs, including GPT-5, Gemini-2.5-pro, and GPT-4o, on EmoBench-Reddit.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の急速な進歩により、様々な視覚言語タスクにまたがる例外的な能力を示した。しかし、現在の評価ベンチマークは主に客観的な視覚的質問応答やキャプションに焦点を当てており、複雑で主観的な人間の感情を理解する能力が不十分である。このギャップを埋めるために、マルチモーダル感情理解のための新しい階層的ベンチマークであるEmoBench-Redditを紹介します。データセットは、ソーシャルメディアプラットフォームRedditの350の細心の注意を払ってキュレートされたサンプルからなり、それぞれに画像、関連するユーザー提供テキスト、およびユーザーフレアによって確認された感情カテゴリー(sad, humor, sarcasm, happy)が含まれている。基本認識から高度な認知へと進化する階層的なタスク・フレームワークを設計し、各データポイントには6つの複数選択質問と1つのオープンな課題が盛り込まれている。知覚タスクは、基本的な視覚的要素(例えば色、オブジェクト)を識別する能力を評価する一方で、認識タスクはシーン推論、意図の理解、テキストコンテキストを統合する深い共感を必要とする。 EmoBench-RedditでGPT-5, Gemini-2.5-pro, GPT-4oを含む9つのMLLMの総合的な評価を行った。

関連論文リスト

MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models [25.072791108956682]
MultiVerseは、647の対話を特徴とする新しいマルチターン会話ベンチマークである。 484のタスクと484のインタラクション目標を持つMultiVerseは、事実知識や知覚から、数学やコーディングといった高度な推論タスクまで、幅広いトピックをカバーしている。我々は、MultiVerse上で18のビジョン・アンド・ランゲージモデル(VLM)を評価し、最強モデルでさえ複雑なマルチターン会話において50%の成功率しか達成していないことを明らかにした。
論文参考訳（メタデータ） (2025-10-18T21:00:12Z)
Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。 Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文参考訳（メタデータ） (2025-09-30T12:20:57Z)
Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models [17.922450921582794]
咬合知覚は、人間レベルの空間的理解にとって重要な基礎である。我々は,オクルージョン知覚に特化して設計された最初の視覚的質問応答(VQA)ベンチマークであるO-Benchを紹介する。
論文参考訳（メタデータ） (2025-08-06T03:39:21Z)
HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering [11.271123465926301]
マルチモーダルな大言語モデル(MLLM)は、ビジュアル質問回答において複雑な推論タスクに苦戦している。質問の複雑さに動的に適応するプラグイン・アンド・プレイアプローチである FOCUS を提案する。 ScienceQA、TextQA、VizWiz、MMEの4つのベンチマークの実験では、FOCUSはオープンソースとブラックボックス両方のMLLMの性能を一貫して改善している。
論文参考訳（メタデータ） (2025-06-01T03:15:29Z)
Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文参考訳（メタデータ） (2025-05-10T16:15:26Z)
Grounding Task Assistance with Multimodal Cues from a Single Demonstration [17.975173937253494]
MICA(Multimodal Interactive Contextualized Assistance)は、視線と音声の手がかりを統合することで、タスク支援のための会話エージェントを改善するフレームワークである。リアルタイムチャット支援タスク複製から得られる質問に対する評価は,複数モーダルキューがフレームベース検索よりも応答品質を著しく向上することを示している。
論文参考訳（メタデータ） (2025-05-02T20:43:11Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models [35.24458725308099]
感情の反応を駆動する因果的要因に着目した感情解釈(EI)を提案する。従来の感情認識とは異なり、EIタスクは単なるラベル付けではなくトリガーについての推論を必要とする。 EIBenchは1,615の基本的なEIサンプルと50の複雑なEIサンプルを含む大規模なベンチマークである。
論文参考訳（メタデータ） (2025-04-10T07:33:49Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
InsightVision: A Comprehensive, Multi-Level Chinese-based Benchmark for Evaluating Implicit Visual Semantics in Large Vision Language Models [30.986157664865534]
画像中の暗黙の意味の理解を評価するための,総合的,多レベルな中国語ベースのベンチマークを初めて紹介する。このベンチマークは、表面レベルのコンテンツ理解、象徴的な意味解釈、背景知識理解、暗黙的な意味理解の4つのサブタスクに分類される。このベンチマークを用いて、15個のオープンソースの大規模視覚言語モデル (LVLM) と GPT-4o を評価し、人間のパフォーマンスに最も優れたモデルラグでさえ、暗黙的な意味を理解するのに約14%遅れていることを明らかにする。
論文参考訳（メタデータ） (2025-02-19T13:42:37Z)
EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。 EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文参考訳（メタデータ） (2024-06-24T08:33:02Z)
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。 GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文参考訳（メタデータ） (2024-01-24T09:07:11Z)
TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。 GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文参考訳（メタデータ） (2023-08-31T17:52:04Z)
Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。 20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文参考訳（メタデータ） (2022-11-22T09:27:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。