論文の概要: Micro-AU CLIP: Fine-Grained Contrastive Learning from Local Independence to Global Dependency for Micro-Expression Action Unit Detection
- arxiv url: http://arxiv.org/abs/2603.16302v1
- Date: Tue, 17 Mar 2026 09:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.20128
- Title: Micro-AU CLIP: Fine-Grained Contrastive Learning from Local Independence to Global Dependency for Micro-Expression Action Unit Detection
- Title(参考訳): Micro-AU CLIP:マイクロ圧縮アクションユニット検出のための局所独立からグローバル依存への微粒コントラスト学習
- Authors: Jinsheng Wei, Fengzhou Guo, Yante Li, Haoyu Chen, Guanming Lu, Guoying Zhao,
- Abstract要約: 本稿では,AU検出プロセスをローカルセマンティック独立性モデリング(LSI)とグローバルセマンティック依存性モデリング(GSD)に分解する,新しいマイクロAU検出フレームワークであるmicro-AU CLIPを提案する。
実験結果から,マイクロAU CLIPは微細なマイクロAU機能を完全に学習し,最先端性能を実現することができることがわかった。
- 参考スコア(独自算出の注目度): 22.850797928500153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-expression (ME) action units (Micro-AUs) provide objective clues for fine-grained genuine emotion analysis. Most existing Micro-AU detection methods learn AU features from the whole facial image/video, which conflicts with the inherent locality of AU, resulting in insufficient perception of AU regions. In fact, each AU independently corresponds to specific localized facial muscle movements (local independence), while there is an inherent dependency between some AUs under specific emotional states (global dependency). Thus, this paper explores the effectiveness of the independence-to-dependency pattern and proposes a novel micro-AU detection framework, micro-AU CLIP, that uniquely decomposes the AU detection process into local semantic independence modeling (LSI) and global semantic dependency (GSD) modeling. In LSI, Patch Token Attention (PTA) is designed, mapping several local features within the AU region to the same feature space; In GSD, Global Dependency Attention (GDA) and Global Dependency Loss (GDLoss) are presented to model the global dependency relationships between different AUs, thereby enhancing each AU feature. Furthermore, considering CLIP's native limitations in micro-semantic alignment, a microAU contrastive loss (MiAUCL) is designed to learn AU features by a fine-grained alignment of visual and text features. Also, Micro-AU CLIP is effectively applied to ME recognition in an emotion-label-free way. The experimental results demonstrate that Micro-AU CLIP can fully learn fine-grained micro-AU features, achieving state-of-the-art performance.
- Abstract(参考訳): Micro-Expression (ME) アクションユニット (Micro-AUs) は、きめ細かい感情分析のための客観的な手がかりを提供する。
既存のマイクロAU検出手法のほとんどは、AUの固有の局所性と矛盾する顔画像/ビデオ全体からAUの特徴を学習し、AU領域の認識が不十分になる。
実際、それぞれのAUは特定の局所的な顔面筋運動(局所的な独立)に対応しているが、特定の感情状態(グローバルな依存)の下では一部のAUの間に固有の依存関係が存在する。
そこで本研究では,AU検出プロセスを局所意味独立モデル(LSI)とグローバル意味依存モデル(GSD)に一意に分解する,新しいマイクロAU検出フレームワークであるmicro-AU CLIPを提案する。
GSDでは、GDA(Global Dependency Attention)とGDLoss(Global Dependency Loss)が、異なるAU間のグローバルな依存関係関係をモデル化し、各AU機能を増強する。
さらに、マイクロセマンティックアライメントにおけるCLIPのネイティブな制限を考慮すると、マイクロAUコントラストロス(MiAUCL)は視覚的特徴とテキスト特徴のきめ細かいアライメントによってAU特徴を学習するように設計されている。
また、感情ラベルのない方法でME認識にMicro-AU CLIPを効果的に適用する。
実験結果から,マイクロAU CLIPは微細なマイクロAU機能を完全に学習し,最先端性能を実現することができることがわかった。
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion [26.058143518505805]
本稿では,微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおけるマイクロ圧縮アクションユニット(AU)の検出にLarge Language Modelsを用いた新しいフレームワークであるtextbfAU-LLMを紹介する。
EFPはMulti-Layer Perceptron(MLP)を用いて、特殊な3D-CNNバックボーンからの中間レベル(局所的なテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報密度トークンにインテリジェントに融合する。
論文 参考訳(メタデータ) (2025-07-29T13:01:59Z) - Facial Action Unit Detection by Adaptively Constraining Self-Attention and Causally Deconfounding Sample [53.23474626420103]
顔行動単位(AU)検出は、AUの微妙さ、ダイナミクス、多様性のため、依然として困難な課題である。
本稿では,自己注意重み分布を適応的に制限することで,AC2Dと呼ばれる新しいAU検出フレームワークを提案する。
提案手法は,最先端のAU検出手法と比較して,挑戦的なベンチマークによる競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-02T05:51:24Z) - Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint Learning [48.70249675019288]
本稿では,AU認識のためのエンドツーエンドのビジョン・ランゲージ共同学習ネットワークを提案する。
提案手法は,ほとんどのメトリクスにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-08-01T15:35:44Z) - Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - Self-supervised Facial Action Unit Detection with Region and Relation
Learning [5.182661263082065]
地域と関係学習を用いたAU検出のための新しい自己教師型フレームワークを提案する。
改良された最適輸送(OT)アルゴリズムを導入し,AU間の相関特性を利用した。
Swin Transformerは、機能学習中に各AU領域内の長距離依存関係をモデル化するために利用される。
論文 参考訳(メタデータ) (2023-03-10T05:22:45Z) - Local Attention Graph-based Transformer for Multi-target Genetic
Alteration Prediction [0.22940141855172028]
MIL(LA-MIL)のための汎用ローカルアテンショングラフを用いたトランスフォーマを提案する。
LA-MILは消化器癌に対する突然変異予測において最先端の結果が得られることを実証した。
これは、局所的な自己保持がグローバルモジュールと同等の依存性を十分にモデル化していることを示唆している。
論文 参考訳(メタデータ) (2022-05-13T14:24:24Z) - MGRR-Net: Multi-level Graph Relational Reasoning Network for Facial Action Units Detection [16.261362598190807]
FACS(Facial Action Coding System)は、顔画像中のアクションユニット(AU)を符号化する。
我々は、AU特徴の符号化は、地域的特徴とグローバルな特徴の間のリッチな文脈情報を捉えないかもしれないと論じる。
顔AU検出のためのマルチレベルグラフ推論ネットワーク(MGRR-Net)を提案する。
論文 参考訳(メタデータ) (2022-04-04T09:47:22Z) - Objective Class-based Micro-Expression Recognition through Simultaneous
Action Unit Detection and Feature Aggregation [18.35953886595087]
目的クラスに基づくマイクロ圧縮認識(MER)のための新しいディープニューラルネットワークモデルを提案する。
我々のモデルは同時にアクションユニット(AU)を検出し、AUレベルの特徴をマイクロ圧縮レベル表現に集約する。
私たちのアプローチは、MERの現在の最新技術を大幅に上回ります。
論文 参考訳(メタデータ) (2020-12-24T07:31:15Z) - J$\hat{\text{A}}$A-Net: Joint Facial Action Unit Detection and Face
Alignment via Adaptive Attention [57.51255553918323]
本稿では,共同AU検出と顔アライメントのための新しいエンドツーエンドディープラーニングフレームワークを提案する。
我々のフレームワークは、BP4D, DISFA, GFT, BP4D+ベンチマークにおいて、最先端のAU検出方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2020-03-18T12:50:19Z) - Facial Action Unit Detection via Adaptive Attention and Relation [40.34933431651346]
本稿では,顔AU検出のための新しいアダプティブ・アダプティブ・アテンション・アンド・リレーション(AAR)フレームワークを提案する。
具体的には,アダプティブ・アダプティブ・アダプティブ・アダスト・レグレッション・ネットワークを提案し,アダプティブ・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダスト・アダストディションの制約の下で各AUのグローバル・アダスト・マップを回帰する。
AUの多様性と動的性を考慮して,各AUの独立パターン,AU間の相互依存性,および時間依存性を同時に推論する適応時間グラフネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-05T05:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。