論文の概要: Visual Affect Analysis: Predicting Emotions of Image Viewers with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.00123v1
- Date: Tue, 27 Jan 2026 17:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.957022
- Title: Visual Affect Analysis: Predicting Emotions of Image Viewers with Vision-Language Models
- Title(参考訳): 視覚効果分析:視覚言語モデルを用いた映像視聴者の感情予測
- Authors: Filip Nowicki, Hubert Marciniak, Jakub Łączkowski, Krzysztof Jassem, Tomasz Górecki, Vimala Balakrishnan, Desmond C. Ong, Maciej Behnke,
- Abstract要約: 視覚言語モデル(VLM)は、スケールでの視覚刺激の影響を推測するためのツールである。
我々は、最新のプロプライエタリモデルからオープンソースモデルまで、9つのVLMを心理測定で検証された3つの感情イメージデータセットでベンチマークした。
- 参考スコア(独自算出の注目度): 2.2023261946811563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) show promise as tools for inferring affect from visual stimuli at scale; it is not yet clear how closely their outputs align with human affective ratings. We benchmarked nine VLMs, ranging from state-of-the-art proprietary models to open-source models, on three psycho-metrically validated affective image datasets: the International Affective Picture System, the Nencki Affective Picture System, and the Library of AI-Generated Affective Images. The models performed two tasks in the zero-shot setting: (i) top-emotion classification (selecting the strongest discrete emotion elicited by an image) and (ii) continuous prediction of human ratings on 1-7/9 Likert scales for discrete emotion categories and affective dimensions. We also evaluated the impact of rater-conditioned prompting on the LAI-GAI dataset using de-identified participant metadata. The results show good performance in discrete emotion classification, with accuracies typically ranging from 60% to 80% on six-emotion labels and from 60% to 75% on a more challenging 12-category task. The predictions of anger and surprise had the lowest accuracy in all datasets. For continuous rating prediction, models showed moderate to strong alignment with humans (r > 0.75) but also exhibited consistent biases, notably weaker performance on arousal, and a tendency to overestimate response strength. Rater-conditioned prompting resulted in only small, inconsistent changes in predictions. Overall, VLMs capture broad affective trends but lack the nuance found in validated psychological ratings, highlighting their potential and current limitations for affective computing and mental health-related applications.
- Abstract(参考訳): 視覚言語モデル(VLM)は、大規模な視覚刺激から影響を推測するためのツールとして約束されている。
我々は、現在最先端のプロプライエタリモデルからオープンソースモデルまで、9つのVLMを、心理的に検証された3つのイメージデータセット(International Affective Picture System、Nencki Affective Picture System、AI生成されたAffective Image Library of AI)でベンチマークした。
モデルはゼロショット設定で2つのタスクを実行しました。
一 トップ感情分類(画像により引き起こされた最強の離散感情を選択すること)及び
(II) 個別の感情カテゴリーと情動次元に対する1-7/9Likert尺度による人間の評価の連続的予測。
また,レシーバ条件付きプロンプトがLAI-GAIデータセットに与える影響を,未同定の参加者メタデータを用いて評価した。
その結果,6感情ラベルでは60%から80%に,12カテゴリーでは60%から75%に改善した。
怒りと驚きの予測は、すべてのデータセットで最小の精度であった。
連続的な評価予測では、モデルが人間と中程度から強い整合性を示し(r > 0.75)、また一貫したバイアスを示し、特に覚醒性能が低下し、反応強度が過大評価される傾向を示した。
ラター条件のプロンプトは、予測に小さな、一貫性のない変更しかなかった。
全体として、VLMは幅広い情緒的傾向を捉えているが、心理学的評価の検証に見られるニュアンスに欠けており、感情的コンピューティングやメンタルヘルス関連の応用に対するその可能性と現在の限界を強調している。
関連論文リスト
- LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models [49.92148175114169]
制御された摂動を7次元にわたって導入することにより,系統的な脆弱性解析を行う。
モデルは、カメラの視点やロボットの初期状態を含む摂動要因に対して極端に敏感である。
驚くべきことに、モデルは言語の変化にほとんど敏感であり、さらなる実験により、モデルは言語命令を完全に無視する傾向があることが明らかになった。
論文 参考訳(メタデータ) (2025-10-15T14:51:36Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Reading Smiles: Proxy Bias in Foundation Models for Facial Emotion Recognition [10.842056584680071]
ファンデーションモデル(FM)はAffective Computing(AC)を急速に変化させており、ビジョン言語モデル(VLM)はゼロショット設定で感情を認識することができる。
この論文では、これらのモデルが影響を推測するために依存する視覚的手がかりは何か、心理的に根拠づけられているのか、あるいは表面的に学習されているのか、という批判的だが未解明の疑問を調査する。
AffectNetデータセットのアノテートされた部分集合上で異なるスケールのVLMをベンチマークし、目に見える歯の有無に応じて一貫した性能変化を見出す。
論文 参考訳(メタデータ) (2025-06-23T19:56:30Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition [10.411186945517148]
本稿では,サンプルレベルのテキスト記述を自然言語の監視に用いる新しい視覚言語モデルを提案する。
以上の結果から,本手法はベースライン法と比較して大きな改善をもたらすことが示唆された。
本研究では,メンタルヘルス症状推定の下流課題について,サンプルレベル記述を用いてトレーニングしたネットワークから得られた表現を評価した。
論文 参考訳(メタデータ) (2023-10-25T13:43:36Z) - Supervised Learning and Large Language Model Benchmarks on Mental Health Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media [23.49883142003182]
中国のソーシャルメディアから,自殺リスク分類のためのSOS-HL-1Kと,認知歪み検出のためのSocialCD-3Kの2つの新しいデータセットを紹介した。
本稿では,2つの教師付き学習手法と8つの大規模言語モデル(LLM)を用いた総合的な評価を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:50:46Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - A Multi-term and Multi-task Analyzing Framework for Affective Analysis
in-the-wild [0.2216657815393579]
本稿では,ABAW(Affective Behavior Analysis in-the-Wild)2020 Contestに提出された感情認識手法を紹介する。
感情行動には独自の時間枠を持つ観測可能な多くの特徴があるため、複数の最適化された時間窓を導入しました。
時間ごとの感情認識モデルを作成し、これらのモデルをまとめました。
論文 参考訳(メタデータ) (2020-09-29T09:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。