Fugu-MT 論文翻訳(概要): MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

論文の概要: MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

arxiv url: http://arxiv.org/abs/2307.02227v1
Date: Wed, 5 Jul 2023 12:08:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 13:54:29.772667
Title: MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition
Title（参考訳）: MAE-DFER:自己教師型動的顔表情認識のための効率的なマスク付きオートエンコーダ
Authors: Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao
Abstract要約: 本稿では、大量の教師なしデータに基づく大規模自己ラベル事前学習を活用してDFERの開発を進める自己教師型手法であるMAE-DFERを提案する。 MAE-DFERは、ビデオMAEにおけるスタンドアローンの外観再構成に加えて、LGI-Formerが静的な外観情報と動的モーション情報の両方を発掘することを奨励するために、明示的な顔の動きモデリングも導入している。
参考スコア（独自算出の注目度）: 47.29528724322795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dynamic facial expression recognition (DFER) is essential to the development of intelligent and empathetic machines. Prior efforts in this field mainly fall into supervised learning paradigm, which is restricted by the limited labeled data in existing datasets. Inspired by recent unprecedented success of masked autoencoders (e.g., VideoMAE), this paper proposes MAE-DFER, a novel self-supervised method which leverages large-scale self-supervised pre-training on abundant unlabeled data to advance the development of DFER. Since the vanilla Vision Transformer (ViT) employed in VideoMAE requires substantial computation during fine-tuning, MAE-DFER develops an efficient local-global interaction Transformer (LGI-Former) as the encoder. LGI-Former first constrains self-attention in local spatiotemporal regions and then utilizes a small set of learnable representative tokens to achieve efficient local-global information exchange, thus avoiding the expensive computation of global space-time self-attention in ViT. Moreover, in addition to the standalone appearance content reconstruction in VideoMAE, MAE-DFER also introduces explicit facial motion modeling to encourage LGI-Former to excavate both static appearance and dynamic motion information. Extensive experiments on six datasets show that MAE-DFER consistently outperforms state-of-the-art supervised methods by significant margins, verifying that it can learn powerful dynamic facial representations via large-scale self-supervised pre-training. Besides, it has comparable or even better performance than VideoMAE, while largely reducing the computational cost (about 38\% FLOPs). We believe MAE-DFER has paved a new way for the advancement of DFER and can inspire more relavant research in this field and even other related tasks. Codes and models are publicly available at https://github.com/sunlicai/MAE-DFER.
Abstract（参考訳）: 動的表情認識(DFER)は、インテリジェントで共感的な機械の開発に不可欠である。この分野での以前の取り組みは、既存のデータセットに制限されたラベル付きデータによって制限される教師付き学習パラダイムに主に当てはまる。マスク付きオートエンコーダ(例: VideoMAE)の先例のない成功に触発されて,多量のラベルのないデータによる大規模自己教師付き事前学習を活用してDFERの開発を進める,新しい自己教師型手法であるMAE-DFERを提案する。ビデオMAEで使用されるバニラ・ビジョン・トランスフォーマー(ViT)は微調整中にかなりの計算を必要とするため、MAE-DFERはエンコーダとして効率的なローカル・グローバル・インタラクション・トランスフォーマー(LGI-Former)を開発する。 LGI-Formerは、まず、局所時空間領域における自己注意を制約し、次に、学習可能な代表トークンの小さなセットを用いて、効率的なローカル・グローバル情報交換を実現する。さらに,videomaeにおけるスタンドアロンの外観コンテンツ再構成に加えて,lgi-formerが静的な外観と動的動作情報の両方を抽出できるように,明示的な顔動作モデリングも導入している。 6つのデータセットに対する大規模な実験により、MAE-DFERは最先端の教師付き手法をかなりのマージンで一貫して上回り、大規模なセルフ教師付き事前学習を通じて強力な動的顔表現を学習できることが確認された。さらに、ビデオMAEと同等かそれ以上の性能を有し、計算コスト(約38 % FLOPs)を大幅に削減している。 mae-dferは、dferの進歩のための新しい方法を開拓し、この分野におけるより深い研究や、他の関連するタスクを刺激することができると信じている。コードとモデルはhttps://github.com/sunlicai/MAE-DFERで公開されている。

関連論文リスト

COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition [3.271109623410664]
ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
論文参考訳（メタデータ） (2025-03-10T12:43:51Z)
Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression [23.99292102237088]
本稿では,アクション・ビデオ・ダイナミックスをモデル化するためのヘテロジニアス・マスケッド・オートレグレス(HMA)を提案する。ポストトレーニング後、このモデルは、ポリシーを評価し、合成データを生成するためのビデオシミュレータとして使用できる。
論文参考訳（メタデータ） (2025-02-06T18:38:26Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
SVFAP: Self-supervised Video Facial Affect Perceiver [42.16505961654868]
コンピュータビジョンにおける近年の自己教師型学習の成功に触発された本研究では,自己教師型映像表情知覚器(SVFAP)と呼ばれる自己教師型アプローチを導入する。 SVFAPは、監督された方法で直面するジレンマに対処するために、マスク付きビデオオートエンコーディングを利用して、巨大な未ラベルの顔ビデオで自己教師付き事前トレーニングを行う。提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2023-12-31T07:44:05Z)
From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文参考訳（メタデータ） (2023-12-09T03:16:09Z)
SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文参考訳（メタデータ） (2023-05-19T06:12:50Z)
GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文参考訳（メタデータ） (2022-12-06T14:32:55Z)
Exploring The Role of Mean Teachers in Self-supervised Masked Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。 RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文参考訳（メタデータ） (2022-10-05T08:08:55Z)
Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文参考訳（メタデータ） (2020-07-27T02:28:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。