論文の概要: Facial-R1: Aligning Reasoning and Recognition for Facial Emotion Analysis
- arxiv url: http://arxiv.org/abs/2511.10254v1
- Date: Fri, 14 Nov 2025 01:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.774669
- Title: Facial-R1: Aligning Reasoning and Recognition for Facial Emotion Analysis
- Title(参考訳): Facial-R1: 顔の感情分析における推論と認識の調整
- Authors: Jiulong Wu, Yucheng Shen, Lingyong Yan, Haixin Sun, Deguo Xia, Jizhou Huang, Min Cao,
- Abstract要約: FEA(Facial Emotion Analysis)は、説明可能なきめ細かい推論を取り入れることで、従来の顔の感情認識を拡張している。
近年のアプローチでは、ビジョンランゲージモデル(VLM)を活用し、有望な結果が得られるが、2つの限界に直面している。
両課題を最小限の監督で効果的に解決する3段階アライメントフレームワークであるFacial-R1を提案する。
- 参考スコア(独自算出の注目度): 20.372029918328035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Emotion Analysis (FEA) extends traditional facial emotion recognition by incorporating explainable, fine-grained reasoning. The task integrates three subtasks: emotion recognition, facial Action Unit (AU) recognition, and AU-based emotion reasoning to model affective states jointly. While recent approaches leverage Vision-Language Models (VLMs) and achieve promising results, they face two critical limitations: (1) hallucinated reasoning, where VLMs generate plausible but inaccurate explanations due to insufficient emotion-specific knowledge; and (2) misalignment between emotion reasoning and recognition, caused by fragmented connections between observed facial features and final labels. We propose Facial-R1, a three-stage alignment framework that effectively addresses both challenges with minimal supervision. First, we employ instruction fine-tuning to establish basic emotional reasoning capability. Second, we introduce reinforcement training guided by emotion and AU labels as reward signals, which explicitly aligns the generated reasoning process with the predicted emotion. Third, we design a data synthesis pipeline that iteratively leverages the prior stages to expand the training dataset, enabling scalable self-improvement of the model. Built upon this framework, we introduce FEA-20K, a benchmark dataset comprising 17,737 training and 1,688 test samples with fine-grained emotion analysis annotations. Extensive experiments across eight standard benchmarks demonstrate that Facial-R1 achieves state-of-the-art performance in FEA, with strong generalization and robust interpretability.
- Abstract(参考訳): FEA(Facial Emotion Analysis)は、説明可能なきめ細かい推論を取り入れることで、従来の顔の感情認識を拡張している。
このタスクは、感情認識、顔行動単位(AU)認識、感情状態のモデル化のためのAUベースの感情推論という3つのサブタスクを統合する。
近年のアプローチでは、視覚・言語モデル(VLM)を活用して有望な結果を達成する一方で、(1)幻覚的推論(VLM)、(2)観察された顔の特徴と最終的なラベルの間の断片的なつながりによって生じる感情的推論と認識の誤調整という2つの重要な限界に直面している。
両課題を最小限の監督で効果的に解決する3段階アライメントフレームワークであるFacial-R1を提案する。
まず、基本的な感情的推論能力を確立するために、教示微調整を用いる。
第2に、感情とAUラベルで導かれる強化トレーニングを報酬信号として導入し、生成された推論プロセスと予測された感情を明示的に整合させる。
第3に,事前段階を反復的に活用してトレーニングデータセットを拡張し,スケーラブルな自己改善を可能にするデータ合成パイプラインを設計する。
このフレームワークに基づいて、17,737のトレーニングと、きめ細かい感情分析アノテーションを備えた1,688のテストサンプルからなるベンチマークデータセットであるFEA-20Kを紹介する。
8つの標準ベンチマークによる広範囲な実験により、Facial-R1は強力な一般化と堅牢な解釈可能性を持って、FAAにおける最先端のパフォーマンスを達成することが示された。
関連論文リスト
- VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models [46.591026037722436]
本稿では,基本的属性認識,表現分析,高レベルの感情理解を統一する感情的手がかり誘導推論フレームワークを提案する。
我々のアプローチの核心は、感情推論と指示追従のために特別に設計されたビデオ感情基盤モデル(VidEmo)のファミリーである。
基礎的なデータ基盤を確立し,210万の多様な命令ベースのサンプルからなる感情中心の微粒化データセットを導入する。
論文 参考訳(メタデータ) (2025-11-04T16:31:09Z) - From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文 参考訳(メタデータ) (2025-07-16T04:15:06Z) - Using Vision Language Models to Detect Students' Academic Emotion through Facial Expressions [40.24786235839105]
学生の学問的感情は社会的行動や学習成績に大きな影響を及ぼす。
これらの感情を自動的かつ正確に分析する従来のアプローチは、主に教師付き機械学習アルゴリズムに依存している。
本研究では,視覚言語モデル(VLM)が,表情を通して学生の学術的感情を分析する可能性について検討した。
論文 参考訳(メタデータ) (2025-06-12T04:01:26Z) - Emotion Knowledge Enhancement for Vision Large Language Models: A Self-Verification Approach for High-Quality Emotion Instruction Data Generation [17.94565281111736]
本稿では、感情分析のための高品質な指導データを生成するための感情知識強化(SEKE)を用いた自己検証手法を提案する。
このアプローチは、人間の以前の知識をVLLM推論に統合し、三段階の感情記述の間に固有の相関関係が導かれる。
さらに,不確実性を考慮したモンテカルロサンプリング(SV-UAMC)による自己検証戦略を組み込んで,より正確なVLLM予測を効率的に抽出する。
論文 参考訳(メタデータ) (2025-05-14T03:00:20Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - Emotion pattern detection on facial videos using functional statistics [62.997667081978825]
顔面筋運動の有意なパターンを抽出する機能的ANOVAに基づく手法を提案する。
感情群間の表現に時間的差があるかどうかを関数fテストを用いて判定する。
論文 参考訳(メタデータ) (2021-03-01T08:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。