論文の概要: Why Do Vision Language Models Struggle To Recognize Human Emotions?
- arxiv url: http://arxiv.org/abs/2604.15280v1
- Date: Thu, 16 Apr 2026 17:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.036998
- Title: Why Do Vision Language Models Struggle To Recognize Human Emotions?
- Title(参考訳): 視覚言語モデルはなぜ人間の感情を認識するのか?
- Authors: Madhav Agarwal, Sotirios A. Tsaftaris, Laura Sevilla-Lara, Steven McDonagh,
- Abstract要約: 視覚モデル(VLM)は人間の感情を認識するのに苦労していることを示す。
表情認識(DFER)は、2つの重要なVLM脆弱性を露呈する。
本稿では、一般的な概念を好まないための代替的なサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 16.54642537638597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding emotions is a fundamental ability for intelligent systems to be able to interact with humans. Vision-language models (VLMs) have made tremendous progress in the last few years for many visual tasks, potentially offering a promising solution for understanding emotions. However, it is surprising that even the most sophisticated contemporary VLMs struggle to recognize human emotions or to outperform even specialized vision-only classifiers. In this paper we ask the question "Why do VLMs struggle to recognize human emotions?", and observe that the inherently continuous and dynamic task of facial expression recognition (DFER) exposes two critical VLM vulnerabilities. First, emotion datasets are naturally long-tailed, and the web-scale data used to pre-train VLMs exacerbates this head-class bias, causing them to systematically collapse rare, under-represented emotions into common categories. We propose alternative sampling strategies that prevent favoring common concepts. Second, temporal information is critical for understanding emotions. However, VLMs are unable to represent temporal information over dense frame sequences, as they are limited by context size and the number of tokens that can fit in memory, which poses a clear challenge for emotion recognition. We demonstrate that the sparse temporal sampling strategy used in VLMs is inherently misaligned with the fleeting nature of micro-expressions (0.25-0.5 seconds), which are often the most critical affective signal. As a diagnostic probe, we propose a multi-stage context enrichment strategy that utilizes the information from "in-between" frames by first converting them into natural language summaries. This enriched textual context is provided as input to the VLM alongside sparse keyframes, preventing attentional dilution from excessive visual data while preserving the emotional trajectory.
- Abstract(参考訳): 感情を理解することは、知的なシステムが人間と対話できる基本的な能力である。
視覚言語モデル(VLM)は、過去数年間で多くの視覚的タスクにおいて大きな進歩を遂げており、感情を理解するための有望なソリューションを提供する可能性がある。
しかしながら、最も洗練された現代のVLMでさえ、人間の感情を認識したり、特別な視覚のみの分類器よりも優れていることに苦戦しているのは驚くべきことである。
本稿では,「なぜVLMは人間の感情を認識するのに苦労するのか?」という問いに対して,表情認識(DFER)の本質的に連続的でダイナミックなタスクが2つの重要なVLM脆弱性を露呈していることを考察する。
まず、感情データセットは自然に長い尾を持ち、VLMを事前訓練するWebスケールのデータは、このヘッドクラスのバイアスを悪化させ、希少で表現の少ない感情を共通のカテゴリに体系的に崩壊させる。
本稿では、一般的な概念を好まないための代替的なサンプリング戦略を提案する。
第二に、時間的情報は感情を理解するために重要である。
しかしながら、VLMは、コンテキストサイズやメモリに収まるトークンの数によって制限されているため、高密度なフレームシーケンス上の時間情報を表現できないため、感情認識には明らかな課題が生じる。
VLMのスパース時間サンプリング戦略は、しばしば最も重要な感情信号であるマイクロプレッション(0.25-0.5秒)のフリーティング特性と本質的に一致しないことを実証する。
診断用プローブとして,まず自然言語の要約に変換することで,「間」のフレームからの情報を利用する多段階のコンテキストエンリッチメント戦略を提案する。
このリッチテキストコンテキストは、スパースキーフレームと共にVLMへの入力として提供され、感情的軌跡を保ちながら、過度な視覚データからの注意の希釈を防止する。
関連論文リスト
- Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。
DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。
本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:49:58Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering [54.0963629109064]
顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。
近年、ME認識、スポッティング、生成の領域でかなりの進歩を遂げている。
MEグランドチャレンジ(MEGC)2025では、これら研究の方向性を反映した2つのタスクが導入されている。
論文 参考訳(メタデータ) (2025-06-18T09:29:51Z) - KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval [35.77379981826482]
感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。
本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。
Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
論文 参考訳(メタデータ) (2025-05-30T08:33:32Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Visual and Textual Prompts in VLLMs for Enhancing Emotion Recognition [16.317534822730256]
視覚大言語モデル(VLLM)は多モーダル理解に有望な可能性を秘めているが,映像に基づく感情認識への応用は,空間的・文脈的認識の不足によって制限されている。
孤立した顔の特徴を優先する伝統的なアプローチは、ボディランゲージ、環境コンテキスト、社会的相互作用といった重要な非言語的手がかりを無視することが多い。
本研究では,空間的アノテーション,生理的信号,文脈的手がかりを統一的なプロンプト戦略に統合することにより,ゼロショット感情認識を強化する新しいフレームワークであるSet-of-Vision-Text Prompting(SoVTP)を提案する。
論文 参考訳(メタデータ) (2025-04-24T03:26:30Z) - EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model [22.292581935835678]
EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。
また,NFBL(Non-Facial Body Language)アノテーションを各プレイヤーに提供します。
NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
論文 参考訳(メタデータ) (2024-05-01T15:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。