論文の概要: ResEmoteNet: Bridging Accuracy and Loss Reduction in Facial Emotion Recognition
- arxiv url: http://arxiv.org/abs/2409.10545v1
- Date: Sun, 1 Sep 2024 16:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:22:31.446963
- Title: ResEmoteNet: Bridging Accuracy and Loss Reduction in Facial Emotion Recognition
- Title(参考訳): ResEmoteNet: 顔の表情認識におけるブリッジ精度と損失低減
- Authors: Arnab Kumar Roy, Hemant Kumar Kathania, Adhitiya Sharma, Abhishek Dey, Md. Sarfaraj Alam Ansari,
- Abstract要約: 顔の感情認識のための新しいディープラーニングアーキテクチャであるResEmoteNetを提案する。
SEブロックの包含は、人間の顔の重要な特徴に選択的に焦点を合わせ、特徴表現を強化し、あまり関係のないものを抑制する。
FER2013、RAF-DB、AffectNetの3つのオープンソースデータベース上でResEmoteNetを評価し、それぞれ79.79%、94.76%、72.39%の精度を達成した。
- 参考スコア(独自算出の注目度): 1.9903487383723442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The human face is a silent communicator, expressing emotions and thoughts through its facial expressions. With the advancements in computer vision in recent years, facial emotion recognition technology has made significant strides, enabling machines to decode the intricacies of facial cues. In this work, we propose ResEmoteNet, a novel deep learning architecture for facial emotion recognition designed with the combination of Convolutional, Squeeze-Excitation (SE) and Residual Networks. The inclusion of SE block selectively focuses on the important features of the human face, enhances the feature representation and suppresses the less relevant ones. This helps in reducing the loss and enhancing the overall model performance. We also integrate the SE block with three residual blocks that help in learning more complex representation of the data through deeper layers. We evaluated ResEmoteNet on three open-source databases: FER2013, RAF-DB, and AffectNet, achieving accuracies of 79.79%, 94.76%, and 72.39%, respectively. The proposed network outperforms state-of-the-art models across all three databases. The source code for ResEmoteNet is available at https://github.com/ArnabKumarRoy02/ResEmoteNet.
- Abstract(参考訳): 人間の顔はサイレント・コミュニケーターであり、表情を通して感情や思考を表現する。
近年のコンピュータビジョンの進歩により、顔の感情認識技術は大きな進歩を遂げ、マシンは顔の手がかりの複雑さをデコードすることができるようになった。
本研究では,ResEmoteNetを提案する。ResEmoteNetは,コンボリューショナル,スキューズ・エキサイティング(SE),Residual Networksを組み合わせた,顔認識のための新しいディープラーニングアーキテクチャである。
SEブロックの包含は、人間の顔の重要な特徴に選択的に焦点を合わせ、特徴表現を強化し、あまり関係のないものを抑制する。
これにより、損失を減らし、全体のモデルパフォーマンスを向上させることができる。
また、より深いレイヤを通してデータのより複雑な表現を学ぶのに役立つ3つの残留ブロックとSEブロックを統合しています。
我々は、ResEmoteNetをFER2013、RAF-DB、AffectNetの3つのオープンソースデータベース上で評価し、それぞれ79.79%、94.76%、72.39%の精度を達成した。
提案するネットワークは,3つのデータベースにまたがる最先端モデルを上回っている。
ResEmoteNetのソースコードはhttps://github.com/ArnabKumarRoy02/ResEmoteNetで入手できる。
関連論文リスト
- Authentic Emotion Mapping: Benchmarking Facial Expressions in Real News [21.707761612280304]
本稿では,現実的なニュースビデオから抽出した顔のランドマークを用いた感情認識のための新しいベンチマークを提案する。
従来のRGB画像に依存した手法は資源集約的な手法であるのに対し、FLER(Facial Landmark Emotion Recognition)によるアプローチはシンプルで効果的な代替手段である。
論文 参考訳(メタデータ) (2024-04-21T00:14:03Z) - Facial Emotion Recognition Under Mask Coverage Using a Data Augmentation
Technique [0.0]
異なる顔マスクを着用している個人からの感情を認識できる顔感情認識システムを提案する。
移動学習を用いて学習した4つの畳み込みニューラルネットワークの有効性を評価した。
Resnet50は優れた性能を示しており、人依存モードは73.68%、人依存モードは59.57%である。
論文 参考訳(メタデータ) (2023-12-03T09:50:46Z) - Leveraging Previous Facial Action Units Knowledge for Emotion
Recognition on Faces [2.4158349218144393]
本稿では,感情認識のための顔行動単位(AU)認識手法を提案する。
この認識はFACS(Facial Action Coding System)に基づいており、機械学習システムによって計算される。
論文 参考訳(メタデータ) (2023-11-20T18:14:53Z) - An Approach for Improving Automatic Mouth Emotion Recognition [1.5293427903448025]
この研究は、畳み込みニューラルネットワーク(CNN)を用いた口検出による自動感情認識技術の提案と試験である。
この技術は、コミュニケーションスキルの問題のある健康障害の人々を支援するために応用される。
論文 参考訳(メタデータ) (2022-12-12T16:17:21Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Network Architecture Search for Face Enhancement [82.25775020564654]
我々は、NASFE(Network Architecture Search for Face Enhancement)と呼ばれるマルチタスクの顔復元ネットワークを提案する。
NASFEは、単一の劣化(すなわち)を含む低品質の顔画像を高めることができる。
ノイズまたはぼやけ)または複数の劣化(ノイズ+ブラル+ローライト)
論文 参考訳(メタデータ) (2021-05-13T19:46:05Z) - Emotion Recognition in Audio and Video Using Deep Neural Networks [9.694548197876868]
ディープラーニング技術の進歩により、音声認識が大幅に向上した。
音声から感情を認識することは重要な側面であり、ディープラーニング技術により、感情認識は精度とレイテンシが向上した。
本研究では、感情認識の精度を向上させるために、異なるニューラルネットワークを探索する。
論文 参考訳(メタデータ) (2020-06-15T04:50:18Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。