論文の概要: AU-Aware Vision Transformers for Biased Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2211.06609v1
- Date: Sat, 12 Nov 2022 08:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:08:18.202965
- Title: AU-Aware Vision Transformers for Biased Facial Expression Recognition
- Title(参考訳): AU-Aware Vision Transformer for Biased Facial Expression Recognition
- Authors: Shuyi Mao, Xinpeng Li, Qingyang Wu, and Xiaojiang Peng
- Abstract要約: 本研究では,複数のFERデータセットのナイーブな共同トレーニングが個々のFERデータセットのパフォーマンスに有害であることを示す。
AU-ViT(AU-Aware Vision Transformer)を提案する。
私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 17.00557858587472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies have proven that domain bias and label bias exist in different Facial
Expression Recognition (FER) datasets, making it hard to improve the
performance of a specific dataset by adding other datasets. For the FER bias
issue, recent researches mainly focus on the cross-domain issue with advanced
domain adaption algorithms. This paper addresses another problem: how to boost
FER performance by leveraging cross-domain datasets. Unlike the coarse and
biased expression label, the facial Action Unit (AU) is fine-grained and
objective suggested by psychological studies. Motivated by this, we resort to
the AU information of different FER datasets for performance boosting and make
contributions as follows. First, we experimentally show that the naive joint
training of multiple FER datasets is harmful to the FER performance of
individual datasets. We further introduce expression-specific mean images and
AU cosine distances to measure FER dataset bias. This novel measurement shows
consistent conclusions with experimental degradation of joint training. Second,
we propose a simple yet conceptually-new framework, AU-aware Vision Transformer
(AU-ViT). It improves the performance of individual datasets by jointly
training auxiliary datasets with AU or pseudo-AU labels. We also find that the
AU-ViT is robust to real-world occlusions. Moreover, for the first time, we
prove that a carefully-initialized ViT achieves comparable performance to
advanced deep convolutional networks. Our AU-ViT achieves state-of-the-art
performance on three popular datasets, namely 91.10% on RAF-DB, 65.59% on
AffectNet, and 90.15% on FERPlus. The code and models will be released soon.
- Abstract(参考訳): 研究は、ドメインバイアスとラベルバイアスが異なる表情認識(FER)データセットに存在することを証明し、他のデータセットを追加することで特定のデータセットのパフォーマンスを改善するのが難しくなった。
FERバイアス問題に関して、最近の研究は主に高度なドメイン適応アルゴリズムによるドメイン横断問題に焦点を当てている。
本稿では、クロスドメインデータセットを活用することでFERパフォーマンスを向上する方法について述べる。
粗い、偏りのある表現ラベルとは異なり、顔行動単位(AU)はきめ細やかで、心理学的な研究によって示唆される。
これを受けて、異なるFERデータセットのAU情報を利用してパフォーマンスを向上し、以下のように貢献する。
まず,複数のFERデータセットのナイーブな共同トレーニングが個別データセットのFER性能に有害であることを実験的に示す。
さらに、FERデータセットバイアスを測定するために、表現特異的平均画像とAUコサイン距離を導入する。
この新しい測定は,関節訓練の実験的劣化と一貫性のある結論を示す。
次に,概念的に新しいフレームワークau-aware vision transformer (au-vit)を提案する。
AUまたは擬似AUラベルで補助データセットを共同でトレーニングすることで、個々のデータセットのパフォーマンスを向上させる。
また、AU-ViTは現実世界の閉塞に対して堅牢であることも判明した。
さらに,注意深い初期化vitが高度な深層畳み込みネットワークと同等の性能を達成できることを初めて証明した。
私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
コードとモデルはまもなくリリースされる予定だ。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - AU-Supervised Convolutional Vision Transformers for Synthetic Facial
Expression Recognition [12.661683851729679]
本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティション2022の6つの基本的表現分類法について述べる。
合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を活用して性能向上を図る。
論文 参考訳(メタデータ) (2022-07-20T09:33:39Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - AU-Guided Unsupervised Domain Adaptive Facial Expression Recognition [21.126514122636966]
本稿では、異なるFERデータセット間のアノテーションバイアスを軽減するためのAUガイド付き非監視ドメイン適応FERフレームワークを提案する。
ドメイン不変のコンパクトな機能を実現するために、AUを用いた両ドメインのアンカー正負の三つ子をランダムに収集するAUガイドトリプルトトレーニングを利用します。
論文 参考訳(メタデータ) (2020-12-18T07:17:30Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。