論文の概要: FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs
- arxiv url: http://arxiv.org/abs/2407.02157v2
- Date: Tue, 23 Jul 2024 10:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:14:13.708120
- Title: FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs
- Title(参考訳): FineCLIPER: 動的顔表情認識のためのマルチモーダルきめ細かなCLIP
- Authors: Haodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao,
- Abstract要約: 適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
- 参考スコア(独自算出の注目度): 5.35588281968644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic Facial Expression Recognition (DFER) is crucial for understanding human behavior. However, current methods exhibit limited performance mainly due to the scarcity of high-quality data, the insufficient utilization of facial dynamics, and the ambiguity of expression semantics, etc. To this end, we propose a novel framework, named Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs (FineCLIPER), incorporating the following novel designs: 1) To better distinguish between similar facial expressions, we extend the class labels to textual descriptions from both positive and negative aspects, and obtain supervision by calculating the cross-modal similarity based on the CLIP model; 2) Our FineCLIPER adopts a hierarchical manner to effectively mine useful cues from DFE videos. Specifically, besides directly embedding video frames as input (low semantic level), we propose to extract the face segmentation masks and landmarks based on each frame (middle semantic level) and utilize the Multi-modal Large Language Model (MLLM) to further generate detailed descriptions of facial changes across frames with designed prompts (high semantic level). Additionally, we also adopt Parameter-Efficient Fine-Tuning (PEFT) to enable efficient adaptation of large pre-trained models (i.e., CLIP) for this task. Our FineCLIPER achieves SOTA performance on the DFEW, FERV39k, and MAFW datasets in both supervised and zero-shot settings with few tunable parameters. Project Page: https://haroldchen19.github.io/FineCLIPER-Page/
- Abstract(参考訳): 動的表情認識(DFER)は人間の行動を理解する上で重要である。
しかし, 現状の手法は, 高品質なデータの不足, 顔力学の不十分な利用, 表現意味論の曖昧さなどにより, 限られた性能を示す。
この目的のために, 動的顔表情認識のためのマルチモーダルきめ細かなCLIP(FineCLIPER)を提案する。
1)類似の表情をよりよく区別するために,CLIPモデルに基づく相互類似性を計算することにより,クラスラベルを肯定的・否定的両面からテキスト記述に拡張し,監督する。
2)FineCLIPERはDFEビデオから有用な手がかりを効果的にマイニングするために階層的手法を採用している。
具体的には,映像フレームを直接入力(セマンティックレベル)として埋め込む以外に,各フレーム(ミドルセマンティックレベル)に基づいて顔分割マスクやランドマークを抽出し,多モード大言語モデル(MLLM)を用いて,設計したプロンプト(ハイセマンティックレベル)を用いてフレーム間の顔変化の詳細な記述を生成することを提案する。
さらに,パラメータ効率の良いファインチューニング(PEFT)を採用して,大規模事前学習モデル(CLIP)を効率的に適用できるようにする。
我々はDFEW,FERV39k,MAFWの各データセットに対して,調整可能なパラメータがほとんどない教師付きおよびゼロショット設定でSOTA性能を実現する。
Project Page: https://haroldchen19.github.io/FineCLIPER-Page/
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial
Expression Recognition in Videos [94.49851812388061]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Prompting Visual-Language Models for Dynamic Facial Expression
Recognition [14.783257517376041]
本稿ではDFER-CLIPと呼ばれる新しい視覚言語モデルを提案する。
これはCLIPモデルに基づいており、幅内動的顔表情認識のために設計されている。
DFEW、FERV39k、MAFWベンチマークの現在の教師付きDFER法と比較すると、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-08-25T13:52:05Z) - Improving Face Recognition from Caption Supervision with Multi-Granular
Contextual Feature Aggregation [0.0]
我々は,COTS(Commercial-off-the-Shelf)顔認識システムの性能向上のための新しいフレームワークとして,キャプション誘導顔認識(CGFR)を導入した。
本稿では,2つの顔認識モデル(ArcFaceとAdaFace)にCGFRフレームワークを実装し,その性能をマルチモーダルCelebA-HQデータセットで評価した。
論文 参考訳(メタデータ) (2023-08-13T23:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。