論文の概要: Prompting Visual-Language Models for Dynamic Facial Expression
Recognition
- arxiv url: http://arxiv.org/abs/2308.13382v2
- Date: Sat, 14 Oct 2023 23:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 03:50:44.936924
- Title: Prompting Visual-Language Models for Dynamic Facial Expression
Recognition
- Title(参考訳): 動的顔表情認識のための視覚言語モデルの提案
- Authors: Zengqun Zhao, Ioannis Patras
- Abstract要約: 本稿ではDFER-CLIPと呼ばれる新しい視覚言語モデルを提案する。
これはCLIPモデルに基づいており、幅内動的顔表情認識のために設計されている。
DFEW、FERV39k、MAFWベンチマークの現在の教師付きDFER法と比較すると、最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 14.783257517376041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel visual-language model called DFER-CLIP, which is
based on the CLIP model and designed for in-the-wild Dynamic Facial Expression
Recognition (DFER). Specifically, the proposed DFER-CLIP consists of a visual
part and a textual part. For the visual part, based on the CLIP image encoder,
a temporal model consisting of several Transformer encoders is introduced for
extracting temporal facial expression features, and the final feature embedding
is obtained as a learnable "class" token. For the textual part, we use as
inputs textual descriptions of the facial behaviour that is related to the
classes (facial expressions) that we are interested in recognising -- those
descriptions are generated using large language models, like ChatGPT. This, in
contrast to works that use only the class names and more accurately captures
the relationship between them. Alongside the textual description, we introduce
a learnable token which helps the model learn relevant context information for
each expression during training. Extensive experiments demonstrate the
effectiveness of the proposed method and show that our DFER-CLIP also achieves
state-of-the-art results compared with the current supervised DFER methods on
the DFEW, FERV39k, and MAFW benchmarks. Code is publicly available at
https://github.com/zengqunzhao/DFER-CLIP.
- Abstract(参考訳): 本稿では,クリップモデルに基づく動的表情認識(dfer)のための新しい視覚言語モデルであるdfer-clipを提案する。
具体的には、提案したDFER-CLIPは、視覚的部分とテキスト的部分からなる。
視覚的部分については、CLIP画像エンコーダに基づいて、複数のトランスフォーマーエンコーダからなる時間モデルを導入して、時間的表情特徴を抽出し、最終特徴埋め込みを学習可能な「クラス」トークンとして取得する。
テキストの部分は、私たちが認識したいクラス(表情)に関連する顔の振る舞いのテキスト記述を入力として使用します -- これらの記述は、chatgptのような大きな言語モデルを使って生成されるのです。
これは、クラス名のみを使用し、それらの関係をより正確に捉えた作品とは対照的である。
テキスト記述の他に、学習可能なトークンを導入し、トレーニング中の各表現に関する関連するコンテキスト情報を学習する。
提案手法の有効性を実証し、DFEW, FERV39k, MAFWベンチマークで現在管理されているDFER法と比較して、DFER-CLIPが最先端の結果を得ることを示す。
コードはhttps://github.com/zengqunzhao/DFER-CLIPで公開されている。
関連論文リスト
- FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting [28.673734895558322]
本稿では,未知の人間の表情を識別することを目的とした,オープンセット映像に基づく表情認識タスクを提案する。
既存のアプローチでは、CLIPのような大規模ビジョン言語モデルを活用して、未確認のクラスを特定することで、オープンセット認識に対処している。
本稿では,CLIPの映像ベース表情詳細を効果的にモデル化する能力を大幅に向上させる新しいHuman Expression-Sensitive Prompting(HESP)機構を提案する。
論文 参考訳(メタデータ) (2024-04-26T01:21:08Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in
Situation Recognition [20.000253437661]
状況認識とは、活動動詞を用いて画像内で起きていることの構造化された要約を生成するタスクである。
言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。
ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、セマンティックロールラベリングにおいて、既存の最先端の14.1%よりも優れています。
論文 参考訳(メタデータ) (2023-07-02T15:05:15Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - CLIPER: A Unified Vision-Language Framework for In-the-Wild Facial
Expression Recognition [1.8604727699812171]
本稿では,CLIPに基づく静的および動的表情認識のための統合フレームワークを提案する。
複数式テキスト記述子(METD)を導入し,CLIPERをより解釈しやすい表現の微粒化を学習する。
論文 参考訳(メタデータ) (2023-03-01T02:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。