論文の概要: Multi Modal Facial Expression Recognition with Transformer-Based Fusion
Networks and Dynamic Sampling
- arxiv url: http://arxiv.org/abs/2303.08419v2
- Date: Sun, 19 Mar 2023 04:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 22:30:36.609632
- Title: Multi Modal Facial Expression Recognition with Transformer-Based Fusion
Networks and Dynamic Sampling
- Title(参考訳): Transformer-based Fusion Networks と Dynamic Smpling を用いたマルチモーダル表情認識
- Authors: Jun-Hwa Kim, Namho Kim, Chee Sun Won
- Abstract要約: モーダル・フュージョン・モジュール (MFM) を導入し,Swin Transformer から画像特徴と音声特徴を抽出する。
本モデルはCVPR 2023のABAW(Affective Behavior in-the-wild)課題において評価されている。
- 参考スコア(独自算出の注目度): 1.983814021949464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression recognition is an essential task for various applications,
including emotion detection, mental health analysis, and human-machine
interactions. In this paper, we propose a multi-modal facial expression
recognition method that exploits audio information along with facial images to
provide a crucial clue to differentiate some ambiguous facial expressions.
Specifically, we introduce a Modal Fusion Module (MFM) to fuse audio-visual
information, where image and audio features are extracted from Swin
Transformer. Additionally, we tackle the imbalance problem in the dataset by
employing dynamic data resampling. Our model has been evaluated in the
Affective Behavior in-the-wild (ABAW) challenge of CVPR 2023.
- Abstract(参考訳): 表情認識は、感情検出、メンタルヘルス分析、人間と機械の相互作用など、さまざまな応用において不可欠なタスクである。
本稿では,音声情報と顔画像を用いたマルチモーダル表情認識手法を提案し,不明瞭な表情を識別するための重要な手がかりを提供する。
具体的には、Swin Transformerから画像と音声の特徴を抽出するモーダル・フュージョン・モジュール(MFM)を導入する。
さらに、動的データ再サンプリングを用いてデータセット内の不均衡問題に取り組む。
本モデルはCVPR 2023のABAW(Affective Behavior in-the-wild)課題において評価されている。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Interpretable Multimodal Emotion Recognition using Facial Features and
Physiological Signals [16.549488750320336]
視覚的な顔の特徴や、入力ビデオから抽出したr信号から情報を融合することで、感情理解のためのマルチモーダルフレームワークを導入する。
置換重要度分析に基づく解釈可能性技術も実装されている。
論文 参考訳(メタデータ) (2023-06-05T12:57:07Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - Facial Expression Recognition with Swin Transformer [1.983814021949464]
本稿では,Aff-Wild2 Expression データセットの帯域内音声視覚データセットに対して,Swin トランスフォーマーに基づく表情表現手法を提案する。
具体的には、マルチモーダルな情報を表情認識に融合させるために、音声・視覚ビデオに3ストリームネットワークを用いる。
論文 参考訳(メタデータ) (2022-03-25T06:42:31Z) - Transformer-based Multimodal Information Fusion for Facial Expression
Analysis [10.548915939047305]
CVPR2022 Competition on Affective Behavior Analysis in-wild (ABAW) において,4つの競争課題を定義した。
利用可能なマルチモーダル情報は、ビデオにおける音声語、音声韻律、および視覚表現から構成される。
本研究は,上記マルチモーダル情報の融合を実現するために,トランスフォーマーをベースとした4つのネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-23T12:38:50Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - SynFace: Face Recognition with Synthetic Data [83.15838126703719]
我々は、ID混在(IM)とドメイン混在(DM)を併用したSynFaceを考案し、パフォーマンスギャップを緩和する。
また、合成顔画像の系統的実験分析を行い、合成データを顔認識に効果的に活用する方法についての知見を提供する。
論文 参考訳(メタデータ) (2021-08-18T03:41:54Z) - MAFER: a Multi-resolution Approach to Facial Expression Recognition [9.878384185493623]
そこで本稿では,表情認識に携わる深層学習モデルを訓練するための2段階学習手法であるMAFERを提案する。
MAFERの関連する特徴は、タスクに依存しない、すなわち、他の客観的関連技術に補完的に使用できることである。
論文 参考訳(メタデータ) (2021-05-06T07:26:58Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。