論文の概要: Recognizing Facial Expressions in the Wild using Multi-Architectural
Representations based Ensemble Learning with Distillation
- arxiv url: http://arxiv.org/abs/2106.16126v1
- Date: Wed, 30 Jun 2021 15:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:30:07.031627
- Title: Recognizing Facial Expressions in the Wild using Multi-Architectural
Representations based Ensemble Learning with Distillation
- Title(参考訳): マルチアーキテクチャ表現を用いた蒸留を用いたアンサンブル学習による野生の表情認識
- Authors: Rauf Momin, Ali Shan Momin, Khalid Rasheed
- Abstract要約: EmoXNetは、複雑な表情を学習するためのアンサンブル学習技術である。
EmoXNetLiteは、我々のアンサンブルモデルから効率的なディープニューラルネットワークへの知識伝達に有用な蒸留技術である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expressions are the most universal forms of body language and
automatic facial expression recognition is one of the challenging tasks due to
different uncertainties. However, it has been an active field of research for
many years. Nevertheless, efficiency and performance are yet essential aspects
for building robust systems. We proposed two models, EmoXNet which is an
ensemble learning technique for learning convoluted facial representations, and
EmoXNetLite which is a distillation technique that is useful for transferring
the knowledge from our ensemble model to an efficient deep neural network using
label-smoothen soft labels for able to effectively detect expressions in
real-time. Both of the techniques performed quite well, where the ensemble
model (EmoXNet) helped to achieve 85.07% test accuracy on FER2013 with FER+
annotations and 86.25% test accuracy on RAF-DB. Moreover, the distilled model
(EmoXNetLite) showed 82.07% test accuracy on FER2013 with FER+ annotations and
81.78% test accuracy on RAF-DB.
- Abstract(参考訳): 表情は最も普遍的なボディランゲージであり、表情の自動認識は不確実性の違いによる課題の1つである。
しかし、長年にわたって活発な研究分野であった。
それでもなお、効率性とパフォーマンスは堅牢なシステムを構築する上で不可欠な側面です。
そこで本研究では,畳み込み顔の表現を学習するためのアンサンブル学習手法であるemoxnetと,このアンサンブルモデルからの知識を,リアルタイムに表現を効果的に検出できるラベル・スムーテンソフトラベルを用いた効率的な深層ニューラルネットワークに移すのに有用な蒸留技術であるemoxnetliteの2つのモデルを提案した。
どちらの手法もよく機能し、EmoXNetはFER2013で85.07%のテスト精度、FER+アノテーション、RAF-DBで86.25%のテスト精度を達成した。
さらに、蒸留モデル(EmoXNetLite)は、FER+アノテーションによるFER2013の82.07%のテスト精度とRAF-DBの81.78%のテスト精度を示した。
関連論文リスト
- HSEmotion Team at the 7th ABAW Challenge: Multi-Task Learning and Compound Facial Expression Recognition [16.860963320038902]
HSEmotionチームは,第7回ABAW(Affective Behavior Analysis in-the-wild)コンペティションの2つの課題について報告する。
マルチタスク設定で事前学習したフレームレベルの顔特徴抽出器に基づく効率的なパイプラインを提案する。
ニューラルネットワークの軽量アーキテクチャを利用することで、私たちのテクニックのプライバシ意識を確保する。
論文 参考訳(メタデータ) (2024-07-18T05:47:49Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Facial Emotion Recognition: State of the Art Performance on FER2013 [0.0]
FER2013データセットで最高の単一ネットワーク分類精度を達成しました。
我々のモデルは、追加のトレーニングデータを用いることなく、FER2013上で73.28 %の最先端のシングルネットワーク精度を実現する。
論文 参考訳(メタデータ) (2021-05-08T04:20:53Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Facial Expression Recognition with Deep Learning [0.0]
顔表情認識のための複数の深層学習モデル(FER)を実装する。
私たちは、精度を最大化することだけでなく、結果を現実世界に適用することを目指しています。
fer2013テストセットにおける最先端の75.8%の精度を実証し、既存のすべての出版物を上回ります。
論文 参考訳(メタデータ) (2020-04-08T03:12:49Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。