論文の概要: Hierarchical Vision-Language Interaction for Facial Action Unit Detection
- arxiv url: http://arxiv.org/abs/2602.14425v1
- Date: Mon, 16 Feb 2026 03:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.056962
- Title: Hierarchical Vision-Language Interaction for Facial Action Unit Detection
- Title(参考訳): 顔行動単位検出のための階層的視覚・言語相互作用
- Authors: Yong Li, Yi Ren, Yizhe Zhang, Wenhua Zhang, Tianyi Zhang, Muyun Jiang, Guo-Sen Xie, Cuntai Guan,
- Abstract要約: 階層型視覚言語によるAU理解手法(HiVA)を提案する。
HiVAは、言語に基づく表現学習を強化するために、多様で文脈的にリッチなAU記述を生成するために、大きな言語モデルを採用している。
実験によると、HiVAは最先端のアプローチを一貫して上回っている。
- 参考スコア(独自算出の注目度): 44.02409932746335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Facial Action Unit (AU) detection seeks to recognize subtle facial muscle activations as defined by the Facial Action Coding System (FACS). A primary challenge w.r.t AU detection is the effective learning of discriminative and generalizable AU representations under conditions of limited annotated data. To address this, we propose a Hierarchical Vision-language Interaction for AU Understanding (HiVA) method, which leverages textual AU descriptions as semantic priors to guide and enhance AU detection. Specifically, HiVA employs a large language model to generate diverse and contextually rich AU descriptions to strengthen language-based representation learning. To capture both fine-grained and holistic vision-language associations, HiVA introduces an AU-aware dynamic graph module that facilitates the learning of AU-specific visual representations. These features are further integrated within a hierarchical cross-modal attention architecture comprising two complementary mechanisms: Disentangled Dual Cross-Attention (DDCA), which establishes fine-grained, AU-specific interactions between visual and textual features, and Contextual Dual Cross-Attention (CDCA), which models global inter-AU dependencies. This collaborative, cross-modal learning paradigm enables HiVA to leverage multi-grained vision-based AU features in conjunction with refined language-based AU details, culminating in robust and semantically enriched AU detection capabilities. Extensive experiments show that HiVA consistently surpasses state-of-the-art approaches. Besides, qualitative analyses reveal that HiVA produces semantically meaningful activation patterns, highlighting its efficacy in learning robust and interpretable cross-modal correspondences for comprehensive facial behavior analysis.
- Abstract(参考訳): 顔面行動ユニット(AU)検出は、顔面行動符号化システム(FACS)によって定義された微妙な顔面筋の活性化を認識する。
主な課題は、限られた注釈付きデータの条件下での識別および一般化可能なAU表現の効果的な学習である。
これを解決するために,テキストによるAU記述をセマンティックな先行語として活用し,AU検出をガイドし,強化する階層的視覚言語インタラクション(HiVA)手法を提案する。
特に、HiVAは言語に基づく表現学習を強化するために、多様で文脈的にリッチなAU記述を生成するために、大きな言語モデルを採用している。
細粒度と全体性の両方の視覚言語関連を捉えるため、HiVAはAU固有の視覚表現の学習を容易にするAU対応の動的グラフモジュールを導入した。
これらの機能は、視覚的特徴とテキスト的特徴の間の細粒度でAU固有の相互作用を確立するDDCA(Disentangled Dual Cross-Attention)と、グローバルなAU間の依存関係をモデル化するCDCA(Contextual Dual Cross-Attention)という2つの相補的なメカニズムからなる階層的クロスモーダルアテンションアーキテクチャにさらに統合されている。
このコラボレーティブなクロスモーダル学習パラダイムにより、HiVAは、洗練された言語ベースのAUディテールと合わせて、多粒度視覚ベースのAU機能を活用することができ、堅牢でセマンティックに強化されたAU検出能力を達成できる。
大規模な実験は、HiVAが最先端のアプローチを一貫して超越していることを示している。
質的な分析によって、HiVAは意味論的に意味のあるアクティベーションパターンを生成し、顔の包括的な行動分析のための頑健で解釈可能な相互対応を学習する上での有効性を強調している。
関連論文リスト
- Contextualized Representation Learning for Effective Human-Object Interaction Detection [17.242400169885453]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
本研究では,条件付き推論と文脈的プロンプトを統合した文脈適応型表現学習を提案する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-16T08:03:16Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint Learning [48.70249675019288]
本稿では,AU認識のためのエンドツーエンドのビジョン・ランゲージ共同学習ネットワークを提案する。
提案手法は,ほとんどのメトリクスにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-08-01T15:35:44Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。