論文の概要: ARGen: Affect-Reinforced Generative Augmentation towards Vision-based Dynamic Emotion Perception
- arxiv url: http://arxiv.org/abs/2604.12255v1
- Date: Tue, 14 Apr 2026 04:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.227279
- Title: ARGen: Affect-Reinforced Generative Augmentation towards Vision-based Dynamic Emotion Perception
- Title(参考訳): ARGen:視覚に基づく動的感情知覚への効果強化ジェネレーション強化
- Authors: Huanzhen Wang, Ziheng Zhou, Jiaqi Song, Li He, Yunshi Lan, Yan Wang, Wenqiang Zhang,
- Abstract要約: 本稿では,データ適応型動的表現生成による感情認識の堅牢化を実現するARGenを提案する。
ARGenは、Affective Semantic Injection(ASI)とAdaptive Reinforcement Diffusion(ARD)の2段階で動作する。
- 参考スコア(独自算出の注目度): 38.35698479436818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic facial expression recognition in the wild remains challenging due to data scarcity and long-tail distributions, which hinder models from effectively learning the temporal dynamics of scarce emotions. To address these limitations, we propose ARGen, an Affect-Reinforced Generative Augmentation Framework that enables data-adaptive dynamic expression generation for robust emotion perception. ARGen operates in two stages: Affective Semantic Injection (ASI) and Adaptive Reinforcement Diffusion (ARD). The ASI stage establishes affective knowledge alignment through facial Action Units and employs a retrieval-augmented prompt generation strategy to synthesize consistent and fine-grained affective descriptions via large-scale visual-language models, thereby injecting interpretable emotional priors into the generation process. The ARD stage integrates text-conditioned image-to-video diffusion with reinforcement learning, introducing inter-frame conditional guidance and a multi-objective reward function to jointly optimize expression naturalness, facial integrity, and generative efficiency. Extensive experiments on both generation and recognition tasks verify that ARGen substantially enhances synthesis fidelity and improves recognition performance, establishing an interpretable and generalizable generative augmentation paradigm for vision-based affective computing.
- Abstract(参考訳): 野生における動的表情認識は、データ不足と長い尾の分布のために依然として困難であり、弱い感情の時間的ダイナミクスをモデルが効果的に学習することを妨げている。
これらの制約に対処するために、ロバストな感情知覚のためのデータ適応動的表現生成を可能にするAffect-Reinforced Generative Augmentation FrameworkであるARGenを提案する。
ARGenは、Affective Semantic Injection (ASI)とAdaptive Reinforcement Diffusion (ARD)の2つの段階で動作する。
ASIステージは、顔アクションユニットを通じて情緒的知識アライメントを確立し、大規模な視覚言語モデルを介して、一貫性のあるきめ細かい情緒的記述を合成し、解釈可能な情緒的先行を生成プロセスに注入する。
ARDステージは、テキスト条件付き画像間拡散と強化学習を統合し、フレーム間条件ガイダンスと多目的報酬機能を導入し、表情の自然性、顔の完全性、生成効率を共同で最適化する。
生成タスクと認識タスクの両方に関する広範な実験により、ARGenは合成フィデリティを大幅に向上し、認識性能を向上させることが確認され、視覚ベースの感情コンピューティングのための解釈可能で一般化可能な生成拡張パラダイムが確立される。
関連論文リスト
- Feature Aggregation for Efficient Continual Learning of Complex Facial Expressions [0.0]
表情認識のためのハイブリッドフレームワーク(FER)を提案する。
本モデルでは,まず基本表現を学習し,次に複合表現を段階的に認識できることが示される。
実験では、精度の向上、知識の保持の強化、忘れの削減が示されている。
論文 参考訳(メタデータ) (2025-12-13T10:39:17Z) - Emotion Recognition with CLIP and Sequential Learning [5.66758879852618]
本稿では,Valence-Arousal (VA) Estimation Challenge, Expression Recognition Challenge, and the Action Unit (AU) Detection Challengeについて述べる。
本手法では,継続的な感情認識の促進を目的とした新しい枠組みを導入する。
論文 参考訳(メタデータ) (2025-03-13T01:02:06Z) - Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data [85.71013961405036]
本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。