Fugu-MT 論文翻訳(概要): Facial Expression Recognition using Vanilla ViT backbones with MAE Pretraining

論文の概要: Facial Expression Recognition using Vanilla ViT backbones with MAE Pretraining

arxiv url: http://arxiv.org/abs/2207.11081v1
Date: Fri, 22 Jul 2022 13:39:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-25 13:14:52.525713
Title: Facial Expression Recognition using Vanilla ViT backbones with MAE Pretraining
Title（参考訳）: MAE事前訓練によるVanilla ViTバックボーンを用いた顔表情認識
Authors: Jia Li and Ziyang Zhang
Abstract要約: 上流タスクからのトレーニングサンプルがなくても,バニラVITが競争精度を達成できるかどうかを検討した。具体的には、まず、大規模な表情データセット上で、最初のViTをMasked Autoencoder (MAE)として事前訓練する。次に、人気のある表情データセットのViTを表現ラベルで微調整する。
参考スコア（独自算出の注目度）: 19.069054529020693
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans usually convey emotions voluntarily or involuntarily by facial expressions. Automatically recognizing the basic expression (such as happiness, sadness, and neutral) from a facial image, i.e., facial expression recognition (FER), is extremely challenging and attracts much research interests. Large scale datasets and powerful inference models have been proposed to address the problem. Though considerable progress has been made, most of the state of the arts employing convolutional neural networks (CNNs) or elaborately modified Vision Transformers (ViTs) depend heavily on upstream supervised pretraining. Transformers are taking place the domination of CNNs in more and more computer vision tasks. But they usually need much more data to train, since they use less inductive biases compared with CNNs. To explore whether a vanilla ViT without extra training samples from upstream tasks is able to achieve competitive accuracy, we use a plain ViT with MAE pretraining to perform the FER task. Specifically, we first pretrain the original ViT as a Masked Autoencoder (MAE) on a large facial expression dataset without expression labels. Then, we fine-tune the ViT on popular facial expression datasets with expression labels. The presented method is quite competitive with 90.22\% on RAF-DB, 61.73\% on AfectNet and can serve as a simple yet strong ViT-based baseline for FER studies.
Abstract（参考訳）: 人間は通常、表情によって自発的または自発的に感情を伝える。顔画像、すなわち表情認識(fer)から基本表現(幸福、悲しみ、中立など)を自動的に認識することは極めて困難であり、多くの研究関心を集めている。この問題に対処するために,大規模データセットと強力な推論モデルが提案されている。かなりの進歩があったが、畳み込みニューラルネットワーク(cnns)や精巧に改造された視覚トランスフォーマー(vits)を用いた芸術のほとんどが上流の教師付き事前訓練に大きく依存している。トランスフォーマーは、ますます多くのコンピュータビジョンタスクにおいて、CNNを支配している。しかし、cnnに比べてインダクティブなバイアスが少ないため、トレーニングにはもっと多くのデータが必要です。上流タスクからの余分なトレーニングサンプルのないバニラViTが競争精度を達成できるかどうかを探索するために,MAEプレトレーニング付き平易なViTを用いてFERタスクを実行する。具体的には、まず、表現ラベルなしで大きな表情データセット上で、最初のViTをMasked Autoencoder (MAE)として事前訓練する。次に、人気のある表情データセットのViTを表現ラベルで微調整する。提案手法はRAF-DBの90.22\%、AfectNetの61.73\%と非常に競合し、FER研究の単純なViTベースのベースラインとして機能する。

関連論文リスト

Facial Landmark Visualization and Emotion Recognition Through Neural Networks [0.0]
顔画像からの感情認識は、人間とコンピュータの相互作用において重要な課題である。これまでの研究では、顔認識がディープラーニングモデルのトレーニングに利用できることが示されている。顔データセットの外れ値を特定するための可視化技術である顔ランドマークボックスプロットを提案する。
論文参考訳（メタデータ） (2025-06-20T17:45:34Z)
Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。感情-中性変換を用いた知識強化FER法を提案する。
論文参考訳（メタデータ） (2024-09-13T07:28:57Z)
From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文参考訳（メタデータ） (2023-12-09T03:16:09Z)
GaFET: Learning Geometry-aware Facial Expression Translation from In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文参考訳（メタデータ） (2023-08-07T09:03:35Z)
SimFLE: Simple Facial Landmark Encoding for Self-Supervised Facial Expression Recognition in the Wild [3.4798852684389963]
顔のランドマークの効果的な符号化を学習できる自己教師型簡易顔ランドマーク符号化法(SimFLE)を提案する。この目的のために、新しいFaceMAEモジュールを紹介します。いくつかのFER-Wベンチマークの実験結果から、提案したSimFLEは顔のランドマークのローカライゼーションに優れていることが証明された。
論文参考訳（メタデータ） (2023-03-14T06:30:55Z)
Interpretable Explainability in Facial Emotion Recognition and Gamification for Data Collection [0.0]
顔の感情認識モデルを訓練するには、大量のデータと高価なアノテーションプロセスが必要である。我々は,人間の明示的なラベル付けを行なわずに,注釈付き顔感情データを取得するゲーミフィケーション手法を開発した。プレイヤーの表情認知能力と表情能力は,繰り返しゲームプレイによって著しく向上した。
論文参考訳（メタデータ） (2022-11-09T09:53:48Z)
PERI: Part Aware Emotion Recognition In The Wild [4.206175795966693]
本稿では視覚的特徴を用いた感情認識に焦点を当てる。身体のポーズと顔のランドマークの両方から生成されたマスクを用いて、入力画像からキー領域を抽出し、部分認識空間(PAS)画像を作成する。野生のEMOTICデータセットで公開されている結果について報告する。
論文参考訳（メタデータ） (2022-10-18T20:01:40Z)
Learning Facial Representations from the Cycle-consistency of Face [23.23272327438177]
顔特徴の周期一貫性を自由監督信号として導入し、ラベルのない顔画像から顔の表情を学習する。この学習は、顔の動きサイクルの制約とアイデンティティのサイクルの制約を重畳することによって実現される。我々のアプローチは既存の手法と競合し、アンタングル表現に埋め込まれたリッチでユニークな情報を実証する。
論文参考訳（メタデータ） (2021-08-07T11:30:35Z)
I Only Have Eyes for You: The Impact of Masks On Convolutional-Based Facial Expression Recognition [78.07239208222599]
今回提案したFaceChannelがマスクを持つ人からの表情認識にどのように適応するかを評価します。また、制約された社会的相互作用シナリオにおける顔の特徴の変化を学習し、組み合わせるためのFaceChannelの本質的な能力を示すために、特定の機能レベルの可視化も行います。
論文参考訳（メタデータ） (2021-04-16T20:03:30Z)
DotFAN: A Domain-transferred Face Augmentation Network for Pose and Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。 DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文参考訳（メタデータ） (2020-02-23T08:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。