論文の概要: MAFER: a Multi-resolution Approach to Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2105.02481v1
- Date: Thu, 6 May 2021 07:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:23:56.094853
- Title: MAFER: a Multi-resolution Approach to Facial Expression Recognition
- Title(参考訳): MAFER: 顔表情認識のためのマルチレゾリューションアプローチ
- Authors: Fabio Valerio Massoli, Donato Cafarelli, Claudio Gennaro, Giuseppe
Amato, Fabrizio Falchi
- Abstract要約: そこで本稿では,表情認識に携わる深層学習モデルを訓練するための2段階学習手法であるMAFERを提案する。
MAFERの関連する特徴は、タスクに依存しない、すなわち、他の客観的関連技術に補完的に使用できることである。
- 参考スコア(独自算出の注目度): 9.878384185493623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotions play a central role in the social life of every human being, and
their study, which represents a multidisciplinary subject, embraces a great
variety of research fields. Especially concerning the latter, the analysis of
facial expressions represents a very active research area due to its relevance
to human-computer interaction applications. In such a context, Facial
Expression Recognition (FER) is the task of recognizing expressions on human
faces. Typically, face images are acquired by cameras that have, by nature,
different characteristics, such as the output resolution. It has been already
shown in the literature that Deep Learning models applied to face recognition
experience a degradation in their performance when tested against
multi-resolution scenarios. Since the FER task involves analyzing face images
that can be acquired with heterogeneous sources, thus involving images with
different quality, it is plausible to expect that resolution plays an important
role in such a case too. Stemming from such a hypothesis, we prove the benefits
of multi-resolution training for models tasked with recognizing facial
expressions. Hence, we propose a two-step learning procedure, named MAFER, to
train DCNNs to empower them to generate robust predictions across a wide range
of resolutions. A relevant feature of MAFER is that it is task-agnostic, i.e.,
it can be used complementarily to other objective-related techniques. To assess
the effectiveness of the proposed approach, we performed an extensive
experimental campaign on publicly available datasets: \fer{}, \raf{}, and
\oulu{}. For a multi-resolution context, we observe that with our approach,
learning models improve upon the current SotA while reporting comparable
results in fix-resolution contexts. Finally, we analyze the performance of our
models and observe the higher discrimination power of deep features generated
from them.
- Abstract(参考訳): 感情はすべての人の社会生活において中心的な役割を担い、その研究は多分野の主題であり、様々な研究分野を受け入れている。
特に後者については、人-コンピュータインタラクションアプリケーションとの関連性から、表情の分析は非常に活発な研究領域である。
このような状況下では、表情認識(FER)は人間の顔の表情を認識するタスクである。
通常、顔画像は出力解像度などの特性が本質的に異なるカメラによって取得される。
顔認識に適用されたディープラーニングモデルは、マルチレゾリューションシナリオに対してテストされた場合のパフォーマンスが低下することはすでに文献に示されている。
FERタスクは、異質なソースで取得可能な顔画像を分析し、異なる品質の画像を含むため、そのようなケースにおいても解像度が重要な役割を果たすと期待することは可能である。
このような仮説を起点として,表情認識に携わるモデルに対するマルチレゾリューショントレーニングの利点を実証する。
そこで本稿では,DCNNに対して,幅広い解像度で堅牢な予測を生成するための2段階学習手法であるMAFERを提案する。
MAFERの関連する特徴は、タスクに依存しない、すなわち他の客観的な手法と相補的に使用できることである。
提案手法の有効性を評価するため,公開データセットである \fer{}, \raf{}, \oulu{} について広範な実験を行った。
マルチレゾリューション・コンテキストにおいて、我々のアプローチでは、学習モデルは現在のSotAで改善され、修正解決コンテキストでは同等の結果が報告される。
最後に,我々のモデルの性能を分析し,それらから生成された深い特徴の識別能力の高まりを観察する。
関連論文リスト
- SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - Explainable Multi-View Deep Networks Methodology for Experimental
Physics [0.20417058495510368]
物理実験は、X線スキャンや顕微鏡画像などの複数の画像表現を含むことが多い。
深層学習モデルはこれらの実験において教師あり分析に広く利用されている。
マルチビューデータが現れ、それぞれのサンプルは異なる角度、ソース、モダリティからのビューによって記述される。
マルチビューモデルには適切な説明責任が欠如しており、アーキテクチャのため説明が難しい。
論文 参考訳(メタデータ) (2023-08-16T08:13:38Z) - Multi Modal Facial Expression Recognition with Transformer-Based Fusion
Networks and Dynamic Sampling [1.983814021949464]
モーダル・フュージョン・モジュール (MFM) を導入し,Swin Transformer から画像特徴と音声特徴を抽出する。
本モデルはCVPR 2023のABAW(Affective Behavior in-the-wild)課題において評価されている。
論文 参考訳(メタデータ) (2023-03-15T07:40:28Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - LR-to-HR Face Hallucination with an Adversarial Progressive
Attribute-Induced Network [67.64536397027229]
顔の超解像は難しい問題であり、非常に不適切な問題である。
顔の特徴を取り入れたエンドツーエンドのプログレッシブ・ラーニング・フレームワークを提案する。
提案手法は,他の最先端アプローチよりも良好な顔幻覚像が得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T19:50:45Z) - Exploiting Emotional Dependencies with Graph Convolutional Networks for
Facial Expression Recognition [31.40575057347465]
本稿では,視覚における表情認識のためのマルチタスク学習フレームワークを提案する。
MTL設定において、離散認識と連続認識の両方のために共有特徴表現が学習される。
実験の結果,本手法は離散FER上での最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-07T10:20:05Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Deep Learning-based Face Super-resolution: A Survey [78.11274281686246]
顔の超解像、別名顔の幻覚は、ドメイン固有のイメージの超解像問題です。
現在、深層学習に基づく顔の超解像に関する研究の要約は少ない。
本調査では,超解像面における深層学習の手法を体系的に総合的に検討する。
論文 参考訳(メタデータ) (2021-01-11T08:17:11Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。