論文の概要: Multi-Modal Facial Expression Recognition with Transformer-Based Fusion
Networks and Dynamic Sampling
- arxiv url: http://arxiv.org/abs/2303.08419v1
- Date: Wed, 15 Mar 2023 07:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:38:37.718145
- Title: Multi-Modal Facial Expression Recognition with Transformer-Based Fusion
Networks and Dynamic Sampling
- Title(参考訳): トランスフォーマー型フュージョンネットワークと動的サンプリングを用いたマルチモーダル表情認識
- Authors: Jun-Hwa Kim, Namho Kim, Chee Sun Won
- Abstract要約: 表情認識では、静止画像とともに音声情報を組み込むことで、表情状態をより包括的に理解することができる。
そこで我々は,モーダル・フュージョン・モジュール (MFM) を提案する。
我々のアプローチは、トレーニングデータセットにおけるデータ再サンプリングを通じてデータセットの不均衡にも対処し、単一のフレームでリッチなモーダルを活用する。
- 参考スコア(独自算出の注目度): 1.983814021949464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression recognition is important for various purpose such as
emotion detection, mental health analysis, and human-machine interaction. In
facial expression recognition, incorporating audio information along with still
images can provide a more comprehensive understanding of an expression state.
This paper presents the Multi-modal facial expression recognition methods for
Affective Behavior in-the-wild (ABAW) challenge at CVPR 2023. We propose a
Modal Fusion Module (MFM) to fuse audio-visual information. The modalities used
are image and audio, and features are extracted based on Swin Transformer to
forward the MFM. Our approach also addresses imbalances in the dataset through
data resampling in training dataset and leverages the rich modal in a single
frame using dynmaic data sampling, leading to improved performance.
- Abstract(参考訳): 表情認識は、感情検出、メンタルヘルス分析、人間と機械の相互作用といった様々な目的において重要である。
表情認識では、静止画像とともに音声情報を取り入れることで、表情状態のより包括的な理解が可能になる。
本稿では,CVPR 2023におけるABAW(Affective Behavior in the-wild)課題に対するマルチモーダル表情認識手法を提案する。
本稿では,視聴覚情報を融合するmodal fusion module (mfm)を提案する。
モダリティは画像とオーディオであり、特徴はMFMを転送するためにSwin Transformerに基づいて抽出される。
トレーニングデータセットにおけるデータ再サンプリングによるデータセットの不均衡にも対処し,dynmaicデータサンプリングを用いた単一フレームのリッチモーダルを活用することで,パフォーマンスの向上を実現した。
関連論文リスト
- Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Masked Vision and Language Modeling for Multi-modal Representation
Learning [62.15254888833132]
視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-03T15:11:01Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Facial Expression Recognition with Swin Transformer [1.983814021949464]
本稿では,Aff-Wild2 Expression データセットの帯域内音声視覚データセットに対して,Swin トランスフォーマーに基づく表情表現手法を提案する。
具体的には、マルチモーダルな情報を表情認識に融合させるために、音声・視覚ビデオに3ストリームネットワークを用いる。
論文 参考訳(メタデータ) (2022-03-25T06:42:31Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。