論文の概要: Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2511.10958v1
- Date: Fri, 14 Nov 2025 04:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.435208
- Title: Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition
- Title(参考訳): 動的顔表情認識のためのテキスト誘導弱監視フレームワーク
- Authors: Gunho Jung, Heejo Kong, Seong-Whan Lee,
- Abstract要約: 動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。
DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。
本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
- 参考スコア(独自算出の注目度): 49.41688891301643
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dynamic facial expression recognition (DFER) aims to identify emotional states by modeling the temporal changes in facial movements across video sequences. A key challenge in DFER is the many-to-one labeling problem, where a video composed of numerous frames is assigned a single emotion label. A common strategy to mitigate this issue is to formulate DFER as a Multiple Instance Learning (MIL) problem. However, MIL-based approaches inherently suffer from the visual diversity of emotional expressions and the complexity of temporal dynamics. To address this challenge, we propose TG-DFER, a text-guided weakly supervised framework that enhances MIL-based DFER by incorporating semantic guidance and coherent temporal modeling. We incorporate a vision-language pre-trained (VLP) model is integrated to provide semantic guidance through fine-grained textual descriptions of emotional context. Furthermore, we introduce visual prompts, which align enriched textual emotion labels with visual instance features, enabling fine-grained reasoning and frame-level relevance estimation. In addition, a multi-grained temporal network is designed to jointly capture short-term facial dynamics and long-range emotional flow, ensuring coherent affective understanding across time. Extensive results demonstrate that TG-DFER achieves improved generalization, interpretability, and temporal sensitivity under weak supervision.
- Abstract(参考訳): 動的表情認識(DFER)は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的とする。
DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。
この問題を緩和するための一般的な戦略は、DFERをMIL(Multiple Instance Learning)問題として定式化することである。
しかし、MILに基づくアプローチは本質的に感情表現の視覚的多様性と時間的ダイナミクスの複雑さに悩まされている。
この課題に対処するため,テキストガイドによる弱教師付きフレームワークであるTG-DFERを提案する。
視覚言語事前学習(VLP)モデルを統合し,感情文脈の詳細なテキスト記述を通じて意味指導を行う。
さらに、リッチなテキスト感情ラベルと視覚的インスタンスの特徴を一致させる視覚的プロンプトを導入し、きめ細かい推論とフレームレベルの関連性推定を可能にした。
さらに,短時間の顔の動きと長時間の情緒的流れを同時に捉えることで,時間的コヒーレントな情緒的理解を確実にする,多粒の時間的ネットワークが設計されている。
その結果, TG-DFERは, 弱監督下での一般化, 解釈可能性, 時間感度の向上を達成できた。
関連論文リスト
- From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文 参考訳(メタデータ) (2025-07-16T04:15:06Z) - Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。
我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - Visual and Textual Prompts in VLLMs for Enhancing Emotion Recognition [16.317534822730256]
視覚大言語モデル(VLLM)は多モーダル理解に有望な可能性を秘めているが,映像に基づく感情認識への応用は,空間的・文脈的認識の不足によって制限されている。
孤立した顔の特徴を優先する伝統的なアプローチは、ボディランゲージ、環境コンテキスト、社会的相互作用といった重要な非言語的手がかりを無視することが多い。
本研究では,空間的アノテーション,生理的信号,文脈的手がかりを統一的なプロンプト戦略に統合することにより,ゼロショット感情認識を強化する新しいフレームワークであるSet-of-Vision-Text Prompting(SoVTP)を提案する。
論文 参考訳(メタデータ) (2025-04-24T03:26:30Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Intensity-Aware Loss for Dynamic Facial Expression Recognition in the
Wild [1.8604727699812171]
ビデオシーケンスは、特に現実世界のシナリオにおける表情のために、表現強度の異なるフレームを含むことが多い。
本稿では,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。
さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。
論文 参考訳(メタデータ) (2022-08-19T12:48:07Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。