論文の概要: Reading Smiles: Proxy Bias in Foundation Models for Facial Emotion Recognition
- arxiv url: http://arxiv.org/abs/2506.19079v1
- Date: Mon, 23 Jun 2025 19:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.365112
- Title: Reading Smiles: Proxy Bias in Foundation Models for Facial Emotion Recognition
- Title(参考訳): 読み書き:顔の感情認識のための基礎モデルにおけるプロキシバイアス
- Authors: Iosif Tsangko, Andreas Triantafyllopoulos, Adem Abdelmoula, Adria Mallol-Ragolta, Bjoern W. Schuller,
- Abstract要約: ファンデーションモデル(FM)はAffective Computing(AC)を急速に変化させており、ビジョン言語モデル(VLM)はゼロショット設定で感情を認識することができる。
この論文では、これらのモデルが影響を推測するために依存する視覚的手がかりは何か、心理的に根拠づけられているのか、あるいは表面的に学習されているのか、という批判的だが未解明の疑問を調査する。
AffectNetデータセットのアノテートされた部分集合上で異なるスケールのVLMをベンチマークし、目に見える歯の有無に応じて一貫した性能変化を見出す。
- 参考スコア(独自算出の注目度): 10.842056584680071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation Models (FMs) are rapidly transforming Affective Computing (AC), with Vision Language Models (VLMs) now capable of recognising emotions in zero shot settings. This paper probes a critical but underexplored question: what visual cues do these models rely on to infer affect, and are these cues psychologically grounded or superficially learnt? We benchmark varying scale VLMs on a teeth annotated subset of AffectNet dataset and find consistent performance shifts depending on the presence of visible teeth. Through structured introspection of, the best-performing model, i.e., GPT-4o, we show that facial attributes like eyebrow position drive much of its affective reasoning, revealing a high degree of internal consistency in its valence-arousal predictions. These patterns highlight the emergent nature of FMs behaviour, but also reveal risks: shortcut learning, bias, and fairness issues especially in sensitive domains like mental health and education.
- Abstract(参考訳): ファンデーションモデル(FM)はAffective Computing(AC)を急速に変化させており、ビジョン言語モデル(VLM)はゼロショット設定で感情を認識することができる。
この論文では、これらのモデルが影響を推測するために依存する視覚的手がかりは何か、心理的に根拠づけられているのか、あるいは表面的に学習されているのか、という批判的だが未解明の疑問を調査する。
AffectNetデータセットのアノテートされた部分集合上で異なるスケールのVLMをベンチマークし、目に見える歯の有無に応じて一貫した性能変化を見出す。
GPT-4oの最も優れたモデルである構造的イントロスペクションを通して、眼窩位置のような顔の特徴が感情的推論の多くを駆動し、その原子価-覚醒予測において高い内部整合性を示すことを示す。
これらのパターンは、FMの行動の創発的な性質を浮き彫りにしただけでなく、特にメンタルヘルスや教育のような敏感な領域において、ショートカット学習、偏見、公平性といったリスクも浮き彫りにしている。
関連論文リスト
- Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training [14.450673163785094]
文脈認識感情認識(CAER)は、対象者の感情を認識するための貴重な意味的手がかりを提供する。
現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。
共同設立者を非難するためのCCIM(Contextual Causal Intervention Module)を提案する。
論文 参考訳(メタデータ) (2024-07-06T05:29:02Z) - CAGE: Circumplex Affect Guided Expression Inference [9.108319009019912]
本稿では,2つの共通データセット (AffectNet と EMOTIC) に対して,感情の概略モデルの構成要素を具備した詳細な分析を行った。
本稿では,軽量アプリケーションに適した表情予測モデルを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:30:17Z) - The Power of Properties: Uncovering the Influential Factors in Emotion Classification [7.562215603730798]
最先端の分類性能は、エンドツーエンドのトレーニングニューラルネットワークによってのみ達成される。
明示的な特性とその影響を評価するワークフローを導入する。
論文 参考訳(メタデータ) (2024-04-11T16:01:00Z) - Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [1.4374467687356276]
本稿では,MAE-Face self-supervised learning (SSL) 法と多視点融合注意機構を組み合わせた表現分類手法を提案する。
我々は、重要な顔の特徴を強調表示して、そのような機能がモデルのガイドとして機能するかどうかを判断することを目的とした、実装が容易でトレーニングなしのフレームワークを提案する。
Aff-wild2データセットにおけるモデル性能の改善により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-19T16:21:47Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - I am Only Happy When There is Light: The Impact of Environmental Changes
on Affective Facial Expressions Recognition [65.69256728493015]
本研究では,異なる画像条件が人間の表情からの覚醒の認識に与える影響について検討した。
以上の結果から,人間の感情状態の解釈が肯定的,否定的に大きく異なることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T16:28:26Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。