論文の概要: MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic
Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2307.02227v2
- Date: Tue, 8 Aug 2023 02:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:36:19.271098
- Title: MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic
Facial Expression Recognition
- Title(参考訳): MAE-DFER:自己教師型動的顔表情認識のための効率的なマスク付きオートエンコーダ
- Authors: Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao
- Abstract要約: MAE-DFERは動的表情を学習するための新しい自己教師型手法である。
大量のラベルのないデータに基づいて、大規模な自己教師付き事前トレーニングを使用する。
常に最先端の教師付きメソッドより優れています。
- 参考スコア(独自算出の注目度): 47.29528724322795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic facial expression recognition (DFER) is essential to the development
of intelligent and empathetic machines. Prior efforts in this field mainly fall
into supervised learning paradigm, which is severely restricted by the limited
labeled data in existing datasets. Inspired by recent unprecedented success of
masked autoencoders (e.g., VideoMAE), this paper proposes MAE-DFER, a novel
self-supervised method which leverages large-scale self-supervised pre-training
on abundant unlabeled data to largely advance the development of DFER. Since
the vanilla Vision Transformer (ViT) employed in VideoMAE requires substantial
computation during fine-tuning, MAE-DFER develops an efficient local-global
interaction Transformer (LGI-Former) as the encoder. Moreover, in addition to
the standalone appearance content reconstruction in VideoMAE, MAE-DFER also
introduces explicit temporal facial motion modeling to encourage LGI-Former to
excavate both static appearance and dynamic motion information. Extensive
experiments on six datasets show that MAE-DFER consistently outperforms
state-of-the-art supervised methods by significant margins (e.g., +6.30\% UAR
on DFEW and +8.34\% UAR on MAFW), verifying that it can learn powerful dynamic
facial representations via large-scale self-supervised pre-training. Besides,
it has comparable or even better performance than VideoMAE, while largely
reducing the computational cost (about 38\% FLOPs). We believe MAE-DFER has
paved a new way for the advancement of DFER and can inspire more relevant
research in this field and even other related tasks. Codes and models are
publicly available at https://github.com/sunlicai/MAE-DFER.
- Abstract(参考訳): 動的表情認識(DFER)は、インテリジェントで共感的な機械の開発に不可欠である。
この分野での以前の取り組みは、主に教師付き学習パラダイムに当てはまり、既存のデータセットの制限付きデータによって厳しく制限されている。
近年のマスク付きオートエンコーダ(例:videomae)の成功に触発されて,大量のラベルなしデータに対して大規模自己教師付き事前学習を活用し,dferの開発を大いに前進させる新しい自己教師付き手法mae-dferを提案する。
ビデオMAEで使用されるバニラ・ビジョン・トランスフォーマー(ViT)は微調整中にかなりの計算を必要とするため、MAE-DFERはエンコーダとして効率的なローカル・グローバル・インタラクション・トランスフォーマー(LGI-Former)を開発する。
さらに,MAE-DFERは,ビデオMAEのスタンドアロンな外観コンテンツ再構成に加えて,LGI-Formerが静的な外観情報と動的動き情報の両方を発掘することを奨励する明示的な時間的顔の動きモデリングも導入している。
6つのデータセットに対する大規模な実験により、MAE-DFERは最先端の教師付き手法をかなりのマージン(DFEWでは+6.30\% UAR、MAFWでは+8.34\% UAR)で一貫して上回り、大規模な自己監督型事前訓練を通じて強力な動的顔表現を学習できることが確認された。
さらに、ビデオMAEと同等かそれ以上の性能を有し、計算コスト(約38 % FLOPs)を大幅に削減している。
mae-dferは、dferの進歩のための新しい方法を開拓し、この分野および他の関連するタスクにおいて、より関連する研究を刺激することができると信じている。
コードとモデルはhttps://github.com/sunlicai/MAE-DFERで公開されている。
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - SVFAP: Self-supervised Video Facial Affect Perceiver [42.16505961654868]
コンピュータビジョンにおける近年の自己教師型学習の成功に触発された本研究では,自己教師型映像表情知覚器(SVFAP)と呼ばれる自己教師型アプローチを導入する。
SVFAPは、監督された方法で直面するジレンマに対処するために、マスク付きビデオオートエンコーディングを利用して、巨大な未ラベルの顔ビデオで自己教師付き事前トレーニングを行う。
提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2023-12-31T07:44:05Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。