論文の概要: Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2405.19100v1
- Date: Wed, 29 May 2024 14:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:00:54.874000
- Title: Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer
- Title(参考訳): LLM知識伝達によるゼロショット顔表情認識の強化
- Authors: Zengqun Zhao, Yu Cao, Shaogang Gong, Ioannis Patras,
- Abstract要約: 大規模言語モデル(LLM)からタスク知識を伝達することにより、ゼロショットFERを向上させる新しい手法Exp-CLIPを提案する。
具体的には、事前訓練された視覚言語エンコーダに基づいて、初期共同視覚言語空間を顔行動の表現をキャプチャする空間にマッピングするプロジェクションヘッドを組み込む。
衝突しない顔データから、Exp-CLIPは、7つの範囲のFERデータセット上でCLIPモデルや他のいくつかの大きなビジョン言語モデル(LVLM)よりも優れたゼロショット結果を達成する。
- 参考スコア(独自算出の注目度): 40.47880613758304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current facial expression recognition (FER) models are often designed in a supervised learning manner thus are constrained by the lack of large-scale facial expression images with high-quality annotations. Consequently, these models often fail to generalize well, performing poorly on unseen images in training. Vision-language-based zero-shot models demonstrate a promising potential for addressing such challenges. However, these models lack task-specific knowledge therefore are not optimized for the nuances of recognizing facial expressions. To bridge this gap, this work proposes a novel method, Exp-CLIP, to enhance zero-shot FER by transferring the task knowledge from large language models (LLMs). Specifically, based on the pre-trained vision-language encoders, we incorporate a projection head designed to map the initial joint vision-language space into a space that captures representations of facial actions. To train this projection head for subsequent zero-shot predictions, we propose to align the projected visual representations with task-specific semantic meanings derived from the LLM encoder, and the text instruction-based strategy is employed to customize the LLM knowledge. Given unlabelled facial data and efficient training of the projection head, Exp-CLIP achieves superior zero-shot results to the CLIP models and several other large vision-language models (LVLMs) on seven in-the-wild FER datasets. The code and pre-trained models are available at \url{https://github.com/zengqunzhao/Exp-CLIP}.
- Abstract(参考訳): 現在の顔表情認識(FER)モデルは、しばしば教師付き学習方法で設計されるため、高品質なアノテーションによる大規模な表情画像の欠如によって制約される。
結果として、これらのモデルはよく一般化できず、トレーニングでは目に見えない画像では不十分である。
視覚言語に基づくゼロショットモデルは、このような課題に対処するための有望な可能性を示している。
しかし、これらのモデルにはタスク固有の知識がないため、表情認識のニュアンスに最適化されていない。
このギャップを埋めるために,大規模な言語モデル (LLM) からタスク知識を移譲することによってゼロショットFERを強化する新しい手法であるExp-CLIPを提案する。
具体的には、事前訓練された視覚言語エンコーダに基づいて、初期共同視覚言語空間を顔行動の表現をキャプチャする空間にマッピングするプロジェクションヘッドを組み込む。
このプロジェクションヘッドを、その後のゼロショット予測のためにトレーニングするために、LLMエンコーダから派生したタスク固有の意味意味と、投影された視覚表現を一致させることを提案し、LLMの知識をカスタマイズするために、テキスト命令に基づく戦略を採用する。
衝突しない顔データとプロジェクションヘッドの効率的なトレーニングを与えられたExp-CLIPは、CLIPモデルと他の大型ビジョン言語モデル(LVLM)の7つの範囲のFERデータセットに対して優れたゼロショット結果を達成する。
コードと事前訓練されたモデルは、 \url{https://github.com/zengqunzhao/Exp-CLIP}で入手できる。
関連論文リスト
- LLV-FSR: Exploiting Large Language-Vision Prior for Face Super-resolution [67.23699927053191]
LLV-FSRと呼ばれる新しいフレームワークを提案する。このフレームワークは、大きな視覚言語モデルと高次視覚モデルのパワーと、顔超解像の課題とをマージする。
MMCelebA-HQデータセットのPSNRでSOTAを0.43dB以上上回って,提案手法は再構築品質と知覚品質の両方を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-11-14T09:12:18Z) - FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。
まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。
潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文 参考訳(メタデータ) (2024-10-10T06:27:46Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。