論文の概要: Facial Expression Recognition with Swin Transformer
- arxiv url: http://arxiv.org/abs/2203.13472v1
- Date: Fri, 25 Mar 2022 06:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 12:20:09.040306
- Title: Facial Expression Recognition with Swin Transformer
- Title(参考訳): スイニングトランスを用いた顔表情認識
- Authors: Jun-Hwa Kim, Namho Kim, Chee Sun Won
- Abstract要約: 本稿では,Aff-Wild2 Expression データセットの帯域内音声視覚データセットに対して,Swin トランスフォーマーに基づく表情表現手法を提案する。
具体的には、マルチモーダルな情報を表情認識に融合させるために、音声・視覚ビデオに3ストリームネットワークを用いる。
- 参考スコア(独自算出の注目度): 1.983814021949464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of recognizing human facial expressions plays a vital role in
various human-related systems, including health care and medical fields. With
the recent success of deep learning and the accessibility of a large amount of
annotated data, facial expression recognition research has been mature enough
to be utilized in real-world scenarios with audio-visual datasets. In this
paper, we introduce Swin transformer-based facial expression approach for an
in-the-wild audio-visual dataset of the Aff-Wild2 Expression dataset.
Specifically, we employ a three-stream network (i.e., Visual stream, Temporal
stream, and Audio stream) for the audio-visual videos to fuse the multi-modal
information into facial expression recognition. Experimental results on the
Aff-Wild2 dataset show the effectiveness of our proposed multi-modal
approaches.
- Abstract(参考訳): 人間の表情を認識するタスクは、医療や医療を含む様々な人間関連システムにおいて重要な役割を果たす。
近年のディープラーニングの成功と大量の注釈付きデータのアクセシビリティにより、表情認識の研究は、オーディオ視覚データセットを用いた現実のシナリオで利用できるほど成熟した。
本稿では,Aff-Wild2 Expressionデータセットの帯域内オーディオ視覚データセットに対して,Swin Transformerに基づく顔認識手法を提案する。
具体的には,マルチモーダル情報を表情認識に融合させるために,音声映像に3つのネットワーク(ビジュアルストリーム,テンポラリストリーム,オーディオストリーム)を用いる。
aff-wild2データセットの実験結果は,提案するマルチモーダル手法の有効性を示している。
関連論文リスト
- Semantic Data Augmentation for Long-tailed Facial Expression Recognition [4.912577183275402]
本稿では,表情認識のための新しい意味拡張手法を提案する。
私たちのメソッドは、FERタスクだけでなく、より多様なデータハングリーシナリオでも使用できます。
論文 参考訳(メタデータ) (2024-11-26T09:31:12Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Multi Modal Facial Expression Recognition with Transformer-Based Fusion
Networks and Dynamic Sampling [1.983814021949464]
モーダル・フュージョン・モジュール (MFM) を導入し,Swin Transformer から画像特徴と音声特徴を抽出する。
本モデルはCVPR 2023のABAW(Affective Behavior in-the-wild)課題において評価されている。
論文 参考訳(メタデータ) (2023-03-15T07:40:28Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Transformer-based Multimodal Information Fusion for Facial Expression
Analysis [10.548915939047305]
CVPR2022 Competition on Affective Behavior Analysis in-wild (ABAW) において,4つの競争課題を定義した。
利用可能なマルチモーダル情報は、ビデオにおける音声語、音声韻律、および視覚表現から構成される。
本研究は,上記マルチモーダル情報の融合を実現するために,トランスフォーマーをベースとした4つのネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-23T12:38:50Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - CapsField: Light Field-based Face and Expression Recognition in the Wild
using Capsule Routing [81.21490913108835]
本稿では,畳み込みニューラルネットワークに基づく新しい深層顔・表情認識ソリューションであるCapsFieldを提案する。
提案手法は,最先端技術と比較して,顔および表情認識タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-01-10T09:06:02Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。