論文の概要: Robust Facial Expression Recognition with Convolutional Visual
Transformers
- arxiv url: http://arxiv.org/abs/2103.16854v1
- Date: Wed, 31 Mar 2021 07:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:34:50.541989
- Title: Robust Facial Expression Recognition with Convolutional Visual
Transformers
- Title(参考訳): 畳み込み型視覚変換器を用いたロバスト表情認識
- Authors: Fuyan Ma, Bin Sun and Shutao Li
- Abstract要約: コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
- 参考スコア(独自算出の注目度): 23.05378099875569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Expression Recognition (FER) in the wild is extremely challenging due
to occlusions, variant head poses, face deformation and motion blur under
unconstrained conditions. Although substantial progresses have been made in
automatic FER in the past few decades, previous studies are mainly designed for
lab-controlled FER. Real-world occlusions, variant head poses and other issues
definitely increase the difficulty of FER on account of these
information-deficient regions and complex backgrounds. Different from previous
pure CNNs based methods, we argue that it is feasible and practical to
translate facial images into sequences of visual words and perform expression
recognition from a global perspective. Therefore, we propose Convolutional
Visual Transformers to tackle FER in the wild by two main steps. First, we
propose an attentional selective fusion (ASF) for leveraging the feature maps
generated by two-branch CNNs. The ASF captures discriminative information by
fusing multiple features with global-local attention. The fused feature maps
are then flattened and projected into sequences of visual words. Second,
inspired by the success of Transformers in natural language processing, we
propose to model relationships between these visual words with global
self-attention. The proposed method are evaluated on three public in-the-wild
facial expression datasets (RAF-DB, FERPlus and AffectNet). Under the same
settings, extensive experiments demonstrate that our method shows superior
performance over other methods, setting new state of the art on RAF-DB with
88.14%, FERPlus with 88.81% and AffectNet with 61.85%. We also conduct
cross-dataset evaluation on CK+ show the generalization capability of the
proposed method.
- Abstract(参考訳): 野生における顔表情認識(FER)は, 咬合, 異形頭部ポーズ, 顔の変形, 動きのぼやけなどにより, 極めて困難である。
過去数十年間、自動FERでかなりの進歩があったが、以前の研究は主に実験室で制御されたFERのために設計されている。
現実世界のオクルージョン、変動頭部のポーズ、その他の問題は、これらの情報不足領域や複雑な背景を考慮すると、FERの難しさを確実に増す。
従来の純CNNの手法と異なり、顔画像を視覚的単語の列に翻訳し、世界的視点から表現認識を行うことは可能であり、実用的であると論じる。
そこで本研究では,進化型ビジュアルトランスフォーマー(Convolutional Visual Transformer)を提案する。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
ASFは、グローバルな注意を払って複数の特徴を融合することで識別情報をキャプチャする。
融合した特徴マップはフラット化され、視覚的な単語のシーケンスに投影される。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
提案手法は,3つの顔表情データセット(RAF-DB,FERPlus,AffectNet)を用いて評価した。
同じ条件下では、我々の手法は他の手法よりも優れた性能を示し、RAF-DBに88.14%、FERPlusに88.81%、AffectNetに61.85%の新しい状態を設定する。
また,CK+のクロスデータセット評価を行い,提案手法の一般化能力を示す。
関連論文リスト
- Bridging the Gaps: Utilizing Unlabeled Face Recognition Datasets to Boost Semi-Supervised Facial Expression Recognition [5.750927184237346]
我々は、半教師付きFERを高めるために、大きな未ラベルの顔認識(FR)データセットを活用することに重点を置いている。
具体的には,アノテーションを使わずに大規模な顔画像の事前訓練を行う。
ラベル付き画像や多彩な画像の不足を緩和するために、Mixupベースのデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:26:19Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - More comprehensive facial inversion for more effective expression
recognition [8.102564078640274]
IFER(Inversion FER)と呼ばれるFERタスクの画像反転機構に基づく新しい生成手法を提案する。
ASITは、分布アライメント損失に制約された、ソースと生成された画像間のセマンティック特徴のコサイン類似度を測定する画像反転判別器を備えている。
FFHQやCelebA-HQなどの顔データセット上でASITを広範囲に評価し,現状の顔インバージョン性能を実現する方法を示した。
論文 参考訳(メタデータ) (2022-11-24T12:31:46Z) - AU-Aware Vision Transformers for Biased Facial Expression Recognition [17.00557858587472]
本研究では,複数のFERデータセットのナイーブな共同トレーニングが個々のFERデータセットのパフォーマンスに有害であることを示す。
AU-ViT(AU-Aware Vision Transformer)を提案する。
私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-12T08:58:54Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Learning Vision Transformer with Squeeze and Excitation for Facial
Expression Recognition [10.256620178727884]
我々は、FERタスクのためのSqueeze and Excitation(SE)ブロックと共同で視覚変換器を学ぶことを提案する。
提案手法は、CK+, JAFFE,RAF-DB, SFEWなど、利用可能なさまざまなFERデータベース上で評価される。
実験により,本モデルはCK+およびSFEWの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-07-07T09:49:01Z) - MViT: Mask Vision Transformer for Facial Expression Recognition in the
wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。
本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。
我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文 参考訳(メタデータ) (2021-06-08T16:58:10Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。