論文の概要: MMA-MRNNet: Harnessing Multiple Models of Affect and Dynamic Masked RNN for Precise Facial Expression Intensity Estimation
- arxiv url: http://arxiv.org/abs/2303.00180v4
- Date: Wed, 4 Sep 2024 11:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 07:10:38.193882
- Title: MMA-MRNNet: Harnessing Multiple Models of Affect and Dynamic Masked RNN for Precise Facial Expression Intensity Estimation
- Title(参考訳): MMA-MRNNet: 顔表情強度推定のための複数の効果モデルと動的マスクRNNのハーネス化
- Authors: Dimitrios Kollias, Andreas Psaroudakis, Anastasios Arsenos, Paraskevi Theofilou, Chunchang Shao, Guanyu Hu, Ioannis Patras,
- Abstract要約: MMA-MRNNetはビデオデータからの動的多出力表情強度推定のための新しいディープラーニングアーキテクチャである。
提案した単一アンサンブル学習MMA-MRNNetは,Hum-Reactionデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 22.50867271027266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents MMA-MRNNet, a novel deep learning architecture for dynamic multi-output Facial Expression Intensity Estimation (FEIE) from video data. Traditional approaches to this task often rely on complex 3-D CNNs, which require extensive pre-training and assume that facial expressions are uniformly distributed across all frames of a video. These methods struggle to handle videos of varying lengths, often resorting to ad-hoc strategies that either discard valuable information or introduce bias. MMA-MRNNet addresses these challenges through a two-stage process. First, the Multiple Models of Affect (MMA) extractor component is a Multi-Task Learning CNN that concurrently estimates valence-arousal, recognizes basic facial expressions, and detects action units in each frame. These representations are then processed by a Masked RNN component, which captures temporal dependencies and dynamically updates weights according to the true length of the input video, ensuring that only the most relevant features are used for the final prediction. The proposed unimodal non-ensemble learning MMA-MRNNet was evaluated on the Hume-Reaction dataset and demonstrated significantly superior performance, surpassing state-of-the-art methods by a wide margin, regardless of whether they were unimodal, multimodal, or ensemble approaches. Finally, we demonstrated the effectiveness of the MMA component of our proposed method across multiple in-the-wild datasets, where it consistently outperformed all state-of-the-art methods across various metrics.
- Abstract(参考訳): 本稿では,映像データからの動的多出力表情強度推定(FEIE)のための新しいディープラーニングアーキテクチャであるMMA-MRNNetを提案する。
この課題に対する従来のアプローチは複雑な3次元CNNに依存しており、ビデオのすべてのフレームに顔の表情が均一に分散されていると仮定する。
これらの手法は、様々な長さのビデオを扱うのに苦労し、しばしば価値ある情報を捨てるかバイアスをもたらすアドホックな戦略に頼っている。
MMA-MRNNetは2段階のプロセスを通じてこれらの課題に対処する。
まず、MMA抽出部は、価覚醒を同時に推定し、基本的表情を認識し、各フレームにおけるアクション単位を検出するマルチタスク学習CNNである。
これらの表現はMasked RNNコンポーネントによって処理され、時間的依存関係をキャプチャし、入力ビデオの真の長さに応じて動的に重みを更新する。
提案した単音節非アンサンブル学習MMA-MRNNetは,Hum-Reactionデータセットを用いて評価され,一音節,マルチモーダル,アンサンブルアプローチの有無にかかわらず,最先端の手法よりもはるかに優れた性能を示した。
最後に,提案手法のMMA成分の有効性を複数の組込みデータセットで実証した。
関連論文リスト
- Intensity-Aware Loss for Dynamic Facial Expression Recognition in the
Wild [1.8604727699812171]
ビデオシーケンスは、特に現実世界のシナリオにおける表情のために、表現強度の異なるフレームを含むことが多い。
本稿では,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。
さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。
論文 参考訳(メタデータ) (2022-08-19T12:48:07Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - CapsField: Light Field-based Face and Expression Recognition in the Wild
using Capsule Routing [81.21490913108835]
本稿では,畳み込みニューラルネットワークに基づく新しい深層顔・表情認識ソリューションであるCapsFieldを提案する。
提案手法は,最先端技術と比較して,顔および表情認識タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-01-10T09:06:02Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Synthetic Expressions are Better Than Real for Learning to Detect Facial
Actions [4.4532095214807965]
提案手法は,各映像フレームから顔の3次元形状を再構成し,その3次元メッシュを標準視に整列し,GANネットワークをトレーニングして,顔のアクションユニットによる新規画像の合成を行う。
このネットワークは、合成された表情を訓練し、実際の表情を訓練し、現在の最先端のアプローチを上回った。
論文 参考訳(メタデータ) (2020-10-21T13:11:45Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Deep Multi-Facial Patches Aggregation Network For Facial Expression
Recognition [5.735035463793008]
深層多面的パッチアグリゲーションネットワークに基づく顔表情認識(FER)のアプローチを提案する。
ディープ機能は、ディープサブネットワークを使用して顔のパッチから学習され、表現分類のために1つのディープアーキテクチャに集約される。
論文 参考訳(メタデータ) (2020-02-20T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。