論文の概要: Intensity-Aware Loss for Dynamic Facial Expression Recognition in the
Wild
- arxiv url: http://arxiv.org/abs/2208.10335v1
- Date: Fri, 19 Aug 2022 12:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:42:31.123581
- Title: Intensity-Aware Loss for Dynamic Facial Expression Recognition in the
Wild
- Title(参考訳): 野生における動的顔表情認識のための強度認識損失
- Authors: Hanting Li, Hongjing Niu, Zhaoqing Zhu, and Feng Zhao
- Abstract要約: ビデオシーケンスは、特に現実世界のシナリオにおける表情のために、表現強度の異なるフレームを含むことが多い。
本稿では,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。
さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。
- 参考スコア(独自算出の注目度): 1.8604727699812171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with the image-based static facial expression recognition (SFER)
task, the dynamic facial expression recognition (DFER) task based on video
sequences is closer to the natural expression recognition scene. However, DFER
is often more challenging. One of the main reasons is that video sequences
often contain frames with different expression intensities, especially for the
facial expressions in the real-world scenarios, while the images in SFER
frequently present uniform and high expression intensities. However, if the
expressions with different intensities are treated equally, the features
learned by the networks will have large intra-class and small inter-class
differences, which is harmful to DFER. To tackle this problem, we propose the
global convolution-attention block (GCA) to rescale the channels of the feature
maps. In addition, we introduce the intensity-aware loss (IAL) in the training
process to help the network distinguish the samples with relatively low
expression intensities. Experiments on two in-the-wild dynamic facial
expression datasets (i.e., DFEW and FERV39k) indicate that our method
outperforms the state-of-the-art DFER approaches. The source code will be made
publicly available.
- Abstract(参考訳): 画像に基づく静的表情認識(SFER)タスクと比較して、映像シーケンスに基づく動的表情認識(DFER)タスクは、自然な表情認識シーンに近い。
しかし、DFERはもっと難しいことが多い。
主な理由の1つは、ビデオシーケンスが表現強度の異なるフレーム(特に実世界のシナリオにおける表情)をしばしば含んでいるのに対し、SFERのイメージは均一で高表現強度であることが多いことである。
しかし、異なる強度の表現が等しく扱われる場合、ネットワークによって学習される特徴は、DFERにとって有害な、クラス内およびクラス間の違いが大きい。
この問題に対処するため,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。
さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。
DFEWとFERV39kの2つの動的表情データセットの実験結果から,本手法は最先端のDFER手法よりも優れていることが示された。
ソースコードは一般公開される予定だ。
関連論文リスト
- UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos [83.48170683672427]
UniLearnは、静的表情認識データを統合してDFERタスクを強化する統一学習パラダイムである。
UniLearnは、FERV39K、MAFW、DFEWのベンチマークにおいて、それぞれ53.65%、58.44%、76.68%の重み付き平均リコール(WAR)で常に最先端のパフォーマンスを保っている。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - CLIPER: A Unified Vision-Language Framework for In-the-Wild Facial
Expression Recognition [1.8604727699812171]
本稿では,CLIPに基づく静的および動的表情認識のための統合フレームワークを提案する。
複数式テキスト記述子(METD)を導入し,CLIPERをより解釈しやすい表現の微粒化を学習する。
論文 参考訳(メタデータ) (2023-03-01T02:59:55Z) - NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression
Recognition [1.8604727699812171]
DFERタスクにおけるノイズフレームの干渉を低減するために、ノイズロスト動的表情認識ネットワーク(NR-DFERNet)を提案する。
具体的には、空間的段階において、より識別的な空間的特徴を学習するために静的特徴に動的特徴を導入する動的静的融合モジュール(DSF)を考案する。
対象の無関係なフレームの影響を抑えるために,時間段階の変換器に新しい動的クラストークン(DCT)を導入する。
論文 参考訳(メタデータ) (2022-06-10T10:17:30Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。