論文の概要: Learning Transferable Facial Emotion Representations from Large-Scale Semantically Rich Captions
- arxiv url: http://arxiv.org/abs/2507.21015v1
- Date: Mon, 28 Jul 2025 17:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.228392
- Title: Learning Transferable Facial Emotion Representations from Large-Scale Semantically Rich Captions
- Title(参考訳): 大規模Semantically Rich Captionによる移動可能な表情表現の学習
- Authors: Licai Sun, Xingxun Jiang, Haoyu Chen, Yante Li, Zheng Lian, Biu Liu, Yuan Zong, Wenming Zheng, Jukka M. Leppänen, Guoying Zhao,
- Abstract要約: EmoCap100Kは,10万以上のサンプルからなる大規模顔の感情キャプションデータセットである。
EmoCapCLIPは,クロスモーダルガイド型ポジティブマイニングモジュールによって強化されたグローバル・ローカル・コントラスト学習フレームワークを組み込んだものである。
- 参考スコア(独自算出の注目度): 39.81062289449454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current facial emotion recognition systems are predominately trained to predict a fixed set of predefined categories or abstract dimensional values. This constrained form of supervision hinders generalization and applicability, as it reduces the rich and nuanced spectrum of emotions into oversimplified labels or scales. In contrast, natural language provides a more flexible, expressive, and interpretable way to represent emotions, offering a much broader source of supervision. Yet, leveraging semantically rich natural language captions as supervisory signals for facial emotion representation learning remains relatively underexplored, primarily due to two key challenges: 1) the lack of large-scale caption datasets with rich emotional semantics, and 2) the absence of effective frameworks tailored to harness such rich supervision. To this end, we introduce EmoCap100K, a large-scale facial emotion caption dataset comprising over 100,000 samples, featuring rich and structured semantic descriptions that capture both global affective states and fine-grained local facial behaviors. Building upon this dataset, we further propose EmoCapCLIP, which incorporates a joint global-local contrastive learning framework enhanced by a cross-modal guided positive mining module. This design facilitates the comprehensive exploitation of multi-level caption information while accommodating semantic similarities between closely related expressions. Extensive evaluations on over 20 benchmarks covering five tasks demonstrate the superior performance of our method, highlighting the promise of learning facial emotion representations from large-scale semantically rich captions. The code and data will be available at https://github.com/sunlicai/EmoCapCLIP.
- Abstract(参考訳): 現在の顔の感情認識システムは、予め定義されたカテゴリや抽象次元の値の固定セットを予測するために予め訓練されている。
この制限された監督形態は、リッチでニュアンスな感情のスペクトルを単純化されたラベルやスケールに還元するため、一般化と適用性を妨げる。
対照的に、自然言語はより柔軟で表現力があり、解釈可能な感情を表現する方法を提供する。
しかし、情緒豊かな自然言語キャプションを顔の感情表現学習の補助信号として活用することは、主に2つの主要な課題により、比較的過小評価されている。
1)感情的セマンティクスに富んだ大規模キャプションデータセットの欠如
2)このようなリッチな監督を行うための効果的な枠組みの欠如。
この目的のために、EmoCap100Kは、10万以上のサンプルからなる大規模な顔感情キャプションデータセットであり、グローバルな感情状態ときめ細かい局所的な顔行動の両方をキャプチャするリッチで構造化されたセマンティック記述を備えている。
このデータセットをベースとしたEmoCapCLIPは,クロスモーダルガイドによるポジティブマイニングモジュールによって強化されたグローバルなコントラスト学習フレームワークである。
この設計は、近縁な表現間の意味的類似性を調節しながら、多レベルキャプション情報の包括的活用を容易にする。
5つのタスクをカバーする20以上のベンチマークを総合的に評価し,大規模な意味豊かなキャプションから顔の感情表現を学習する可能性を強調した。
コードとデータはhttps://github.com/sunlicai/EmoCapCLIPで入手できる。
関連論文リスト
- Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。
本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:33:46Z) - From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文 参考訳(メタデータ) (2025-07-16T04:15:06Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis [34.100793905255955]
マルチモーダル・アスペクトベースの感情分類(MASC)は,ソーシャル・プラットフォーム上でのユーザ生成型マルチモーダル・コンテンツの増加による新たな課題である。
既存のMASCにおける多大な努力と重要な成果にもかかわらず、細かな視覚的内容の理解には大きなギャップが残っている。
本稿では,認知的・審美的感情因果理解フレームワークであるChimeraについて述べる。
論文 参考訳(メタデータ) (2025-04-22T12:43:37Z) - Beyond Vision: How Large Language Models Interpret Facial Expressions from Valence-Arousal Values [6.987852837732702]
大規模言語モデルは、主にテキストベースの入力と出力によって操作されるが、人間の感情は、表情を含む言語的および非言語的な手がかりによって伝達される。
本研究では,LLMが生の視覚的入力を使わずに,表情の次元から感情的意味を推定できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-02-08T09:54:03Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
まず、VLLMに対して、視覚的文脈に関連して、被験者の明らかな感情を自然言語で記述するように促す。
第二に、記述は視覚入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。