論文の概要: From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition
- arxiv url: http://arxiv.org/abs/2507.11892v1
- Date: Wed, 16 Jul 2025 04:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.219537
- Title: From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition
- Title(参考訳): 粗視からニュアンセドへ:動的感情認識のための微視的言語的キューと視覚的サージェント領域の相互アライメント
- Authors: Yu Liu, Leyuan Qu, Hanlei Shi, Di Gao, Yuhua Zheng, Taihao Li,
- Abstract要約: 動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
- 参考スコア(独自算出の注目度): 7.362433184546492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic Facial Expression Recognition (DFER) aims to identify human emotions from temporally evolving facial movements and plays a critical role in affective computing. While recent vision-language approaches have introduced semantic textual descriptions to guide expression recognition, existing methods still face two key limitations: they often underutilize the subtle emotional cues embedded in generated text, and they have yet to incorporate sufficiently effective mechanisms for filtering out facial dynamics that are irrelevant to emotional expression. To address these gaps, We propose GRACE, Granular Representation Alignment for Cross-modal Emotion recognition that integrates dynamic motion modeling, semantic text refinement, and token-level cross-modal alignment to facilitate the precise localization of emotionally salient spatiotemporal features. Our method constructs emotion-aware textual descriptions via a Coarse-to-fine Affective Text Enhancement (CATE) module and highlights expression-relevant facial motion through a motion-difference weighting mechanism. These refined semantic and visual signals are aligned at the token level using entropy-regularized optimal transport. Experiments on three benchmark datasets demonstrate that our method significantly improves recognition performance, particularly in challenging settings with ambiguous or imbalanced emotion classes, establishing new state-of-the-art (SOTA) results in terms of both UAR and WAR.
- Abstract(参考訳): 動的表情認識(Dynamic Facial Expression Recognition, DFER)は、人間の感情を時間的に進化する顔の動きから識別することを目的としており、感情コンピューティングにおいて重要な役割を果たす。
最近の視覚言語アプローチでは、表現認識を導くために意味的テキスト記述を導入しているが、既存の手法では、しばしば生成されたテキストに埋め込まれた微妙な感情的手がかりを弱め、感情的表現とは無関係な顔のダイナミクスをフィルタリングするための十分な効果的なメカニズムを組み込んでいない、という2つの重要な制限に直面している。
これらのギャップに対処するために,動的動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な時空間的特徴の正確な局所化を容易にする,GRACE,Granular Representation Alignment for Cross-modal Emotion Recognitionを提案する。
提案手法は, 感情を意識したテキスト記述を, 粗大から細小までのAffective Text Enhancement (CATE) モジュールを用いて構築し, 動き差重み付け機構を用いて表情関連顔の動きを強調する。
これらの洗練された意味と視覚信号は、エントロピー規則化された最適輸送を用いてトークンレベルで整列される。
3つのベンチマークデータセットを用いた実験により,本手法は認識性能を著しく向上させることが示された。特に不明瞭な感情クラスや不均衡な感情クラスでは,UARとWARの両面で新たなSOTA(State-of-the-art)が確立される。
関連論文リスト
- Salience Adjustment for Context-Based Emotion Recognition [4.684464105981824]
本稿では,ベイジアンキュー統合 (BCI) と視覚言語モデル (VLM) を用いた文脈認識型感情認識のためのサリエンス調整フレームワークを提案する。
我々は、囚人のジレンマシナリオにおいて、人間のアノテーションと自動感情認識システムを用いてこのアプローチを評価する。
論文 参考訳(メタデータ) (2025-07-17T20:55:20Z) - Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。
本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:33:46Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Visual and Textual Prompts in VLLMs for Enhancing Emotion Recognition [16.317534822730256]
視覚大言語モデル(VLLM)は多モーダル理解に有望な可能性を秘めているが,映像に基づく感情認識への応用は,空間的・文脈的認識の不足によって制限されている。
孤立した顔の特徴を優先する伝統的なアプローチは、ボディランゲージ、環境コンテキスト、社会的相互作用といった重要な非言語的手がかりを無視することが多い。
本研究では,空間的アノテーション,生理的信号,文脈的手がかりを統一的なプロンプト戦略に統合することにより,ゼロショット感情認識を強化する新しいフレームワークであるSet-of-Vision-Text Prompting(SoVTP)を提案する。
論文 参考訳(メタデータ) (2025-04-24T03:26:30Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - Continuous Adversarial Text Representation Learning for Affective Recognition [1.319058156672392]
本稿では、トランスモデルにおける感情認識の埋め込みを強化するための新しいフレームワークを提案する。
提案手法は,コントラスト学習を導くために,連続原子価覚醒ラベリングシステムを導入する。
動的トークン摂動機構を用いて,感情関連トークンに着目し,感情的手がかりに対するモデル感度を向上させる。
論文 参考訳(メタデータ) (2025-02-28T00:29:09Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Emotion pattern detection on facial videos using functional statistics [62.997667081978825]
顔面筋運動の有意なパターンを抽出する機能的ANOVAに基づく手法を提案する。
感情群間の表現に時間的差があるかどうかを関数fテストを用いて判定する。
論文 参考訳(メタデータ) (2021-03-01T08:31:08Z) - Target Guided Emotion Aware Chat Machine [58.8346820846765]
意味レベルと感情レベルにおける投稿に対する応答の整合性は、人間のような対話を提供する対話システムにとって不可欠である。
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-11-15T01:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。