論文の概要: Multimodal Prompt Alignment for Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2506.21017v1
- Date: Thu, 26 Jun 2025 05:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.989537
- Title: Multimodal Prompt Alignment for Facial Expression Recognition
- Title(参考訳): 表情認識のためのマルチモーダルプロンプトアライメント
- Authors: Fuyan Ma, Yiran He, Bin Sun, Shutao Li,
- Abstract要約: MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 24.470095812039286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has been widely adopted to efficiently adapt vision-language models (VLMs) like CLIP for various downstream tasks. Despite their success, current VLM-based facial expression recognition (FER) methods struggle to capture fine-grained textual-visual relationships, which are essential for distinguishing subtle differences between facial expressions. To address this challenge, we propose a multimodal prompt alignment framework for FER, called MPA-FER, that provides fine-grained semantic guidance to the learning process of prompted visual features, resulting in more precise and interpretable representations. Specifically, we introduce a multi-granularity hard prompt generation strategy that utilizes a large language model (LLM) like ChatGPT to generate detailed descriptions for each facial expression. The LLM-based external knowledge is injected into the soft prompts by minimizing the feature discrepancy between the soft prompts and the hard prompts. To preserve the generalization abilities of the pretrained CLIP model, our approach incorporates prototype-guided visual feature alignment, ensuring that the prompted visual features from the frozen image encoder align closely with class-specific prototypes. Additionally, we propose a cross-modal global-local alignment module that focuses on expression-relevant facial features, further improving the alignment between textual and visual features. Extensive experiments demonstrate our framework outperforms state-of-the-art methods on three FER benchmark datasets, while retaining the benefits of the pretrained model and minimizing computational costs.
- Abstract(参考訳): 様々な下流タスクにCLIPのような視覚言語モデル(VLM)を効率的に適用するために、プロンプト学習が広く採用されている。
彼らの成功にもかかわらず、現在のVLMベースの表情認識(FER)法は、表情の微妙な違いを区別するために欠かせない、きめ細かいテキストと視覚の関係を捉えるのに苦労している。
この課題に対処するため,MPA-FERと呼ばれるFERのためのマルチモーダル・プロンプトアライメント・フレームワークを提案する。
具体的には,ChatGPTのような大規模言語モデル(LLM)を用いて,表情ごとに詳細な記述を生成する多粒度ハードプロンプト生成戦略を提案する。
LLMに基づく外部知識は、ソフトプロンプトとハードプロンプトとの間の特徴差を最小限に抑え、ソフトプロンプトに注入される。
事前訓練されたCLIPモデルの一般化能力を維持するため,本手法ではプロトタイプ誘導型視覚特徴アライメントを導入し,凍結した画像エンコーダの視覚特徴がクラス固有のプロトタイプと密接に一致することを保証する。
さらに,表情関連顔特徴に着目し,テキスト特徴と視覚特徴のアライメントをさらに改善する多目的グローバルアライメントモジュールを提案する。
大規模な実験により、我々のフレームワークは、事前訓練されたモデルの利点を維持し、計算コストを最小限に抑えながら、3つのFERベンチマークデータセット上で最先端の手法より優れていることを示した。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting [28.673734895558322]
本稿では,未知の表情と未知の表情の両方を識別することを目的とした,オープンセット映像に基づく表情認識タスクを提案する。
既存のアプローチでは、CLIPのような大規模な視覚言語モデルを使用して、目に見えないクラスを特定する。
本稿では,CLIPの映像ベース表情詳細を効果的にモデル化する能力を大幅に向上させる新しいHuman Expression-Sensitive Prompting(HESP)機構を提案する。
論文 参考訳(メタデータ) (2024-04-26T01:21:08Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。