論文の概要: TAG: Thinking with Action Unit Grounding for Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2602.18763v1
- Date: Sat, 21 Feb 2026 09:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.298602
- Title: TAG: Thinking with Action Unit Grounding for Facial Expression Recognition
- Title(参考訳): TAG:表情認識のためのアクション・ユニット・グラウンディング
- Authors: Haobo Lin, Tianyi Bai, Jiajun Zhang, Xuanhao Chang, Sheng Lu, Fangming Gu, Zengjie Hu, Wentao Zhang,
- Abstract要約: 我々は,顔行動単位(AU)によって支援されるマルチモーダル推論を明示的に制約する視覚言語フレームワークであるTAG(Thinking with Action Unit Grounding)を提案する。
RAF-DB,FERPlus,AffectNetで評価した。
- 参考スコア(独自算出の注目度): 18.35567824514563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Expression Recognition (FER) is a fine-grained visual understanding task where reliable predictions require reasoning over localized and meaningful facial cues. Recent vision--language models (VLMs) enable natural language explanations for FER, but their reasoning is often ungrounded, producing fluent yet unverifiable rationales that are weakly tied to visual evidence and prone to hallucination, leading to poor robustness across different datasets. We propose TAG (Thinking with Action Unit Grounding), a vision--language framework that explicitly constrains multimodal reasoning to be supported by facial Action Units (AUs). TAG requires intermediate reasoning steps to be grounded in AU-related facial regions, yielding predictions accompanied by verifiable visual evidence. The model is trained via supervised fine-tuning on AU-grounded reasoning traces followed by reinforcement learning with an AU-aware reward that aligns predicted regions with external AU detectors. Evaluated on RAF-DB, FERPlus, and AffectNet, TAG consistently outperforms strong open-source and closed-source VLM baselines while simultaneously improving visual faithfulness. Ablation and preference studies further show that AU-grounded rewards stabilize reasoning and mitigate hallucination, demonstrating the importance of structured grounded intermediate representations for trustworthy multimodal reasoning in FER. The code will be available at https://github.com/would1920/FER_TAG .
- Abstract(参考訳): 顔表情認識(FER)は、局所的で意味のある顔の手がかりに対する推論を必要とする、きめ細かな視覚的理解タスクである。
近年の視覚言語モデル(VLM)では、FERの自然言語による説明が可能であるが、その推論は未定であり、視覚的エビデンスに弱く、幻覚に結びついており、さまざまなデータセット間で堅牢性が低下している。我々は、顔アクションユニット(AU)がサポートすべきマルチモーダル推論を明示的に制約する視覚言語フレームワークであるTAG(Thinking with Action Unit Grounding)を提案する。
TAGは、AU関連顔面領域に接地する中間的推論ステップを必要とし、検証された視覚的証拠を伴う予測をもたらす。
このモデルは、予測領域を外部のAU検出器と整列させるAU認識報酬による強化学習に続いて、AU地上の推論トレースを教師付き微調整することで訓練される。
RAF-DB、FERPlus、AffectNetで評価されたTAGは、常に強力なオープンソースとクローズドソースのVLMベースラインを上回り、同時に視覚的忠実性を改善している。
AU-grounded rewards stable reasoning and mitigate hallucination, showed the importance of structureed grounded intermediate representations for trustworthy multimodal reasoning in FER。
コードはhttps://github.com/would 1920/FER_TAG で入手できる。
関連論文リスト
- Hierarchical Vision-Language Interaction for Facial Action Unit Detection [44.02409932746335]
階層型視覚言語によるAU理解手法(HiVA)を提案する。
HiVAは、言語に基づく表現学習を強化するために、多様で文脈的にリッチなAU記述を生成するために、大きな言語モデルを採用している。
実験によると、HiVAは最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-16T03:22:05Z) - Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Rethinking Occlusion in FER: A Semantic-Aware Perspective and Go Beyond [10.015531203047598]
顔の閉塞を曖昧にするための補助的マルチモーダル・セマンティックガイダンスを導入したORSANetを提案する。
また,性差や性差などの内在性雑音を緩和するために,顔のランドマークをスパース幾何学として導入する。
提案するORSANetは,SOTA認識性能を実現する。
論文 参考訳(メタデータ) (2025-07-21T09:04:29Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。