論文の概要: CLIP-AUTT: Test-Time Personalization with Action Unit Prompting for Fine-Grained Video Emotion Recognition
- arxiv url: http://arxiv.org/abs/2603.27999v1
- Date: Mon, 30 Mar 2026 03:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.216556
- Title: CLIP-AUTT: Test-Time Personalization with Action Unit Prompting for Fine-Grained Video Emotion Recognition
- Title(参考訳): CLIP-AUTT:細粒度映像感情認識のためのアクションユニットプロンプトによるテスト時間パーソナライズ
- Authors: Muhammad Osama Zeeshan, Masoumeh Sharafi, Benoît Savary, Alessandro Lameiras Koerich, Marco Pedersoli, Eric Granger,
- Abstract要約: アクションユニット(AU)は、きめ細かい表情をモデル化するためのCLIP内のテキストプロンプトである。
私たちはCLIPに解釈可能なAUセマンティクスを統合する軽量なAU誘導時間学習手法であるCLIP-AUを紹介する。
また,ビデオベースのテスト時間パーソナライズ手法であるCLIP-AUTTを提案する。
- 参考スコア(独自算出の注目度): 57.8548595493709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalization in emotion recognition (ER) is essential for an accurate interpretation of subtle and subject-specific expressive patterns. Recent advances in vision-language models (VLMs) such as CLIP demonstrate strong potential for leveraging joint image-text representations in ER. However, CLIP-based methods either depend on CLIP's contrastive pretraining or on LLMs to generate descriptive text prompts, which are noisy, computationally expensive, and fail to capture fine-grained expressions, leading to degraded performance. In this work, we leverage Action Units (AUs) as structured textual prompts within CLIP to model fine-grained facial expressions. AUs encode the subtle muscle activations underlying expressions, providing localized and interpretable semantic cues for more robust ER. We introduce CLIP-AU, a lightweight AU-guided temporal learning method that integrates interpretable AU semantics into CLIP. It learns generic, subject-agnostic representations by aligning AU prompts with facial dynamics, enabling fine-grained ER without CLIP fine-tuning or LLM-generated text supervision. Although CLIP-AU models fine-grained AU semantics, it does not adapt to subject-specific variability in subtle expressions. To address this limitation, we propose CLIP-AUTT, a video-based test-time personalization method that dynamically adapts AU prompts to videos from unseen subjects. By combining entropy-guided temporal window selection with prompt tuning, CLIP-AUTT enables subject-specific adaptation while preserving temporal consistency. Our extensive experiments on three challenging video-based subtle ER datasets, BioVid, StressID, and BAH, indicate that CLIP-AU and CLIP-AUTT outperform state-of-the-art CLIP-based FER and TTA methods, achieving robust and personalized subtle ER.
- Abstract(参考訳): 感情認識(ER)のパーソナライゼーションは、微妙で主観的な表現パターンの正確な解釈に不可欠である。
CLIPのような視覚言語モデル(VLM)の最近の進歩は、ERにおける共同画像テキスト表現を活用する強力な可能性を示している。
しかし、CLIPベースの手法は、CLIPの対照的な事前学習に依存するか、あるいは記述的なテキストプロンプトを生成するためにLLMに依存する。
本研究では、CLIP内の構造化テキストプロンプトとしてアクションユニット(AU)を活用し、きめ細かい表情をモデル化する。
AUは、表現の基礎となる微妙な筋肉の活性化を符号化し、より堅牢なERに対して局所的で解釈可能な意味的手がかりを提供する。
私たちはCLIPに解釈可能なAUセマンティクスを統合する軽量なAU誘導時間学習手法であるCLIP-AUを紹介する。
AUプロンプトを顔のダイナミックスと整列させることで、汎用的で主題に依存しない表現を学習し、CLIPの微調整やLLM生成したテキストの監督なしに細粒のERを可能にする。
CLIP-AUは微粒なAUセマンティクスをモデル化するが、微妙な表現では主観的な変動に適応しない。
この制限に対処するために,ビデオベースのテスト時間パーソナライズ手法であるCLIP-AUTTを提案する。
エントロピー誘導による時間的ウィンドウ選択と即時チューニングを組み合わせることで、CLIP-AUTTは時間的一貫性を維持しながら主題固有の適応を可能にする。
ビデオベースの微妙なERデータセットであるBioVid、ScressID、BAHに関する大規模な実験は、CLIP-AUとCLIP-AUTTが最先端のCLIPベースのFERとTTAメソッドより優れており、堅牢でパーソナライズされた微妙なERを達成することを示唆している。
関連論文リスト
- ALADIN:Attribute-Language Distillation Network for Person Re-Identification [3.350310340720105]
ALADINは、冷凍のCLIP教師から軽量のReID学生に知識を蒸留する属性言語蒸留ネットワークである。
Scene-Aware Prompt Generatorは、適応アライメントを容易にするために、画像固有のソフトプロンプトを生成する。
論文 参考訳(メタデータ) (2026-03-23T02:05:22Z) - ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder [50.25233123718465]
CLIPテキストエンコーダは77トークンの最大入力長で制限される。
ProCLIPはカリキュラムベースのプログレッシブ・ビジョン言語アライメントフレームワークである。
論文 参考訳(メタデータ) (2025-10-21T16:48:49Z) - Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-06-26T05:28:57Z) - Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting [28.673734895558322]
本稿では,未知の表情と未知の表情の両方を識別することを目的とした,オープンセット映像に基づく表情認識タスクを提案する。
既存のアプローチでは、CLIPのような大規模な視覚言語モデルを使用して、目に見えないクラスを特定する。
本稿では,CLIPの映像ベース表情詳細を効果的にモデル化する能力を大幅に向上させる新しいHuman Expression-Sensitive Prompting(HESP)機構を提案する。
論文 参考訳(メタデータ) (2024-04-26T01:21:08Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。