論文の概要: MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic
Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2307.02227v2
- Date: Tue, 8 Aug 2023 02:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:36:19.271098
- Title: MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic
Facial Expression Recognition
- Title(参考訳): MAE-DFER:自己教師型動的顔表情認識のための効率的なマスク付きオートエンコーダ
- Authors: Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao
- Abstract要約: MAE-DFERは動的表情を学習するための新しい自己教師型手法である。
大量のラベルのないデータに基づいて、大規模な自己教師付き事前トレーニングを使用する。
常に最先端の教師付きメソッドより優れています。
- 参考スコア(独自算出の注目度): 47.29528724322795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic facial expression recognition (DFER) is essential to the development
of intelligent and empathetic machines. Prior efforts in this field mainly fall
into supervised learning paradigm, which is severely restricted by the limited
labeled data in existing datasets. Inspired by recent unprecedented success of
masked autoencoders (e.g., VideoMAE), this paper proposes MAE-DFER, a novel
self-supervised method which leverages large-scale self-supervised pre-training
on abundant unlabeled data to largely advance the development of DFER. Since
the vanilla Vision Transformer (ViT) employed in VideoMAE requires substantial
computation during fine-tuning, MAE-DFER develops an efficient local-global
interaction Transformer (LGI-Former) as the encoder. Moreover, in addition to
the standalone appearance content reconstruction in VideoMAE, MAE-DFER also
introduces explicit temporal facial motion modeling to encourage LGI-Former to
excavate both static appearance and dynamic motion information. Extensive
experiments on six datasets show that MAE-DFER consistently outperforms
state-of-the-art supervised methods by significant margins (e.g., +6.30\% UAR
on DFEW and +8.34\% UAR on MAFW), verifying that it can learn powerful dynamic
facial representations via large-scale self-supervised pre-training. Besides,
it has comparable or even better performance than VideoMAE, while largely
reducing the computational cost (about 38\% FLOPs). We believe MAE-DFER has
paved a new way for the advancement of DFER and can inspire more relevant
research in this field and even other related tasks. Codes and models are
publicly available at https://github.com/sunlicai/MAE-DFER.
- Abstract(参考訳): 動的表情認識(DFER)は、インテリジェントで共感的な機械の開発に不可欠である。
この分野での以前の取り組みは、主に教師付き学習パラダイムに当てはまり、既存のデータセットの制限付きデータによって厳しく制限されている。
近年のマスク付きオートエンコーダ(例:videomae)の成功に触発されて,大量のラベルなしデータに対して大規模自己教師付き事前学習を活用し,dferの開発を大いに前進させる新しい自己教師付き手法mae-dferを提案する。
ビデオMAEで使用されるバニラ・ビジョン・トランスフォーマー(ViT)は微調整中にかなりの計算を必要とするため、MAE-DFERはエンコーダとして効率的なローカル・グローバル・インタラクション・トランスフォーマー(LGI-Former)を開発する。
さらに,MAE-DFERは,ビデオMAEのスタンドアロンな外観コンテンツ再構成に加えて,LGI-Formerが静的な外観情報と動的動き情報の両方を発掘することを奨励する明示的な時間的顔の動きモデリングも導入している。
6つのデータセットに対する大規模な実験により、MAE-DFERは最先端の教師付き手法をかなりのマージン(DFEWでは+6.30\% UAR、MAFWでは+8.34\% UAR)で一貫して上回り、大規模な自己監督型事前訓練を通じて強力な動的顔表現を学習できることが確認された。
さらに、ビデオMAEと同等かそれ以上の性能を有し、計算コスト(約38 % FLOPs)を大幅に削減している。
mae-dferは、dferの進歩のための新しい方法を開拓し、この分野および他の関連するタスクにおいて、より関連する研究を刺激することができると信じている。
コードとモデルはhttps://github.com/sunlicai/MAE-DFERで公開されている。
関連論文リスト
- SVFAP: Self-supervised Video Facial Affect Perceiver [42.16505961654868]
SVFAP(Self-supervised Video Facial Affect Perceiver)
本稿では,自己監督型映像表情知覚器(SVFAP)を提案する。
提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
総合的な結果から,SVFAPは大規模自己教師付き事前学習を通じて強力な感情関連表現を学習できることが示され,すべてのデータセットにおいて従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-12-31T07:44:05Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial
Expression Recognition in Videos [94.49851812388061]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。