論文の概要: AU-Supervised Convolutional Vision Transformers for Synthetic Facial
Expression Recognition
- arxiv url: http://arxiv.org/abs/2207.09777v1
- Date: Wed, 20 Jul 2022 09:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:44:23.611631
- Title: AU-Supervised Convolutional Vision Transformers for Synthetic Facial
Expression Recognition
- Title(参考訳): 合成顔表情認識のためのAU-Supervised Convolutional Vision Transformer
- Authors: Shuyi Mao, Xinpeng Li, Junyao Chen, Xiaojiang Peng
- Abstract要約: 本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティション2022の6つの基本的表現分類法について述べる。
合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を活用して性能向上を図る。
- 参考スコア(独自算出の注目度): 12.661683851729679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper describes our proposed methodology for the six basic expression
classification track of Affective Behavior Analysis in-the-wild (ABAW)
Competition 2022. In Learing from Synthetic Data(LSD) task, facial expression
recognition (FER) methods aim to learn the representation of expression from
the artificially generated data and generalise to real data. Because of the
ambiguous of the synthetic data and the objectivity of the facial Action Unit
(AU), we resort to the AU information for performance boosting, and make
contributions as follows. First, to adapt the model to synthetic scenarios, we
use the knowledge from pre-trained large-scale face recognition data. Second,
we propose a conceptually-new framework, termed as AU-Supervised Convolutional
Vision Transformers (AU-CVT), which clearly improves the performance of FER by
jointly training auxiliary datasets with AU or pseudo AU labels. Our AU-CVT
achieved F1 score as $0.6863$, accuracy as $0.7433$ on the validation set. The
source code of our work is publicly available online:
https://github.com/msy1412/ABAW4
- Abstract(参考訳): 本稿では,ABAW(Affective Behavior Analysis in-the-Wild)コンペティション2022の6つの基本表現分類法について述べる。
合成データ(lsd)タスクからの学習において、表情認識(fer)法は、人工的に生成されたデータから表現の表現を学習し、実データに一般化することを目的としている。
合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を利用してパフォーマンス向上を行い,次のような貢献を行う。
まず、モデルを合成シナリオに適応させるために、事前訓練された大規模顔認識データから知識を利用する。
第2に,AUや疑似AUラベルを用いた補助データセットを共同でトレーニングすることにより,FERの性能を向上する,AU-Supervised Convolutional Vision Transformers (AU-CVT) と呼ばれる概念的に新しいフレームワークを提案する。
AU-CVTはF1スコアを0.6863$、精度を0.7433$と評価した。
私たちの作業のソースコードはオンラインで公開されている。
関連論文リスト
- Forgery-aware Adaptive Vision Transformer for Face Forgery Detection [57.56537940216884]
FA-ViT(Forgery-aware Adaptive Vision Transformer)を提案する。
FA-ViTでは、バニラViTのパラメータは、事前訓練された知識を保持するために凍結される。
特殊設計された2つのコンポーネント、LFI(Local-Aware Forgery)とGFA(Global-Aware Forgery Adaptor)は、フォージェリー関連の知識に適応するために使用される。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - Multi-modal Facial Affective Analysis based on Masked Autoencoder [7.17338843593134]
CVPR 2023: ABAW5 competition: Affective Behavior Analysis in-the-wild について紹介する。
まず,大規模顔画像データセット上で事前学習したMasked Autoencoder(MAE)モデルの視覚情報を利用する。
ABAW5では,平均F1スコアが55.49%,EXPRトラックが41.21%であった。
論文 参考訳(メタデータ) (2023-03-20T03:58:03Z) - AU-Aware Vision Transformers for Biased Facial Expression Recognition [17.00557858587472]
本研究では,複数のFERデータセットのナイーブな共同トレーニングが個々のFERデータセットのパフォーマンスに有害であることを示す。
AU-ViT(AU-Aware Vision Transformer)を提案する。
私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-12T08:58:54Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Facial Emotion Recognition using Deep Residual Networks in Real-World
Environments [5.834678345946704]
そこで本研究では,Wild内および大規模に収集されたビデオデータセットに基づいて訓練された顔特徴抽出モデルを提案する。
データセットは100万のラベル付きフレームと2,616万の被験者で構成されている。
感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。
論文 参考訳(メタデータ) (2021-11-04T10:08:22Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Multi-label Relation Modeling in Facial Action Units Detection [32.27835075990971]
本稿では,顔行動単位検出へのアプローチについて述べる。
AU1 (Inner Brow raiser)、AU2 (Outer Brow raiser)、AU4 (Brow Lowerer)、AU6 (Cheek raise)、AU12 (Lip Corner Puller)、AU15 (Lip Corner Depressor)、AU20 (Lip Stretcher)、AU25 (Lip Part) である。
論文 参考訳(メタデータ) (2020-02-04T03:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。