論文の概要: Facial Emotion Recognition on FER-2013 using an EfficientNetB2-Based Approach
- arxiv url: http://arxiv.org/abs/2601.18228v1
- Date: Mon, 26 Jan 2026 07:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.719883
- Title: Facial Emotion Recognition on FER-2013 using an EfficientNetB2-Based Approach
- Title(参考訳): 効率的なNetB2に基づくFER-2013の顔表情認識
- Authors: Sahil Naik, Soham Bagayatkar, Pavankumar Singh,
- Abstract要約: 現実のシナリオにおける顔画像に基づく人間の感情の検出は、画像品質の低さ、照明の変動、ポーズの変化、背景の気晴らし、クラス間の小さなバリエーション、騒々しいクラウドソースラベル、厳しいクラス不均衡のために難しい作業である。
EfficientNetB2に基づく、軽量で効率的な顔の感情認識パイプラインを用いて、これらの課題に対処する。
このモデルは、87.5%/12.5%の列車価差分を定式化してトレーニングされ、試験精度は68.78%であり、VGG16ベースラインの約10倍のパラメータを達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection of human emotions based on facial images in real-world scenarios is a difficult task due to low image quality, variations in lighting, pose changes, background distractions, small inter-class variations, noisy crowd-sourced labels, and severe class imbalance, as observed in the FER-2013 dataset of 48x48 grayscale images. Although recent approaches using large CNNs such as VGG and ResNet achieve reasonable accuracy, they are computationally expensive and memory-intensive, limiting their practicality for real-time applications. We address these challenges using a lightweight and efficient facial emotion recognition pipeline based on EfficientNetB2, trained using a two-stage warm-up and fine-tuning strategy. The model is enhanced with AdamW optimization, decoupled weight decay, label smoothing (epsilon = 0.06) to reduce annotation noise, and clipped class weights to mitigate class imbalance, along with dropout, mixed-precision training, and extensive real-time data augmentation. The model is trained using a stratified 87.5%/12.5% train-validation split while keeping the official test set intact, achieving a test accuracy of 68.78% with nearly ten times fewer parameters than VGG16-based baselines. Experimental results, including per-class metrics and learning dynamics, demonstrate stable training and strong generalization, making the proposed approach suitable for real-time and edge-based applications.
- Abstract(参考訳): 実世界のシナリオにおける顔画像に基づく人間の感情の検出は、48x48グレースケール画像のFER-2013データセットに見られるように、低画質、照明の変動、ポーズの変化、背景の注意散らし、クラス間の変化、ノイズの多いクラウドソースラベル、重度のクラス不均衡のために難しい作業である。
VGGやResNetのような大規模CNNを用いた最近のアプローチは妥当な精度を達成しているが、計算コストが高く、メモリ集約であり、リアルタイムアプリケーションでは実用性に制限がある。
EfficientNetB2に基づく軽量で効率的な顔の感情認識パイプラインを使用して、これらの課題に対処する。
このモデルは、AdamW最適化、デカップリングウェイト崩壊、ラベルの平滑化(epsilon = 0.06)によるアノテーションノイズの低減、クラス不均衡を軽減するためにクリップされたクラスウェイト、ドロップアウト、混合精度トレーニング、広範囲なリアルタイムデータ拡張によって強化されている。
このモデルは、87.5%/12.5%の列車価差分を定式化してトレーニングされ、試験精度は68.78%であり、VGG16ベースラインの約10倍のパラメータを達成している。
クラスごとのメトリクスや学習ダイナミクスを含む実験結果は、安定したトレーニングと強力な一般化を示し、提案手法はリアルタイムおよびエッジベースのアプリケーションに適している。
関連論文リスト
- InsideOut: An EfficientNetV2-S Based Deep Learning Framework for Robust Multi-Class Facial Emotion Recognition [0.40022988333495174]
顔の感情認識(FER)は、人間とコンピュータの相互作用、eラーニング、医療、安全システムにおける応用を可能にする、感情コンピューティングにおける重要なタスクである。
InsideOutは、EfficientNetV2-S上に構築された再現可能なFERフレームワークで、転送学習、強力なデータ拡張、不均衡を考慮した最適化を行う。
論文 参考訳(メタデータ) (2025-10-03T14:53:47Z) - Analysis of Hyperparameter Optimization Effects on Lightweight Deep Models for Real-Time Image Classification [0.0]
本研究では,ConvNeXt-T,EfficientV2-S,MobileNetV3-L,MobileViT v2(S/XS),RepVGG-A2,TinyViT-21Mの7つの軽量アーキテクチャの精度と展開可能性を評価する。
チューニングだけでは、ベースラインを1.5から3.5パーセント上回るトップ1の精度向上につながり、選択されたモデルでは、レイテンシが5ミリ秒未満で、毎秒9800フレームを超える。
論文 参考訳(メタデータ) (2025-07-31T07:47:30Z) - AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。
軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文 参考訳(メタデータ) (2025-05-25T05:30:37Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Enhancing Environmental Robustness in Few-shot Learning via Conditional Representation Learning [27.549889991320203]
ドメイン固有の視覚認識において、トレーニングデータの不足を克服するために、ショットラーニングが広く活用されている。
現実のシナリオでは、複雑な背景、様々な照明条件、長距離射撃、移動目標などの環境要因は、テスト画像に多くの不完全なターゲットやノイズ破壊を生じさせる。
本稿では,それぞれの表現過程における条件情報として,トレーニングとテスト画像間の相互作用を統合する新しい条件表現学習ネットワーク(CRLNet)を提案する。
論文 参考訳(メタデータ) (2025-02-03T09:18:03Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - If your data distribution shifts, use self-learning [24.23584770840611]
エントロピーや擬似ラベルのような自己学習技術は、体系的なドメインシフトの下でのコンピュータビジョンモデルの性能向上にシンプルかつ効果的である。
我々は広範囲にわたる大規模な実験を行い、モデルアーキテクチャに関係なく一貫した改善を示す。
論文 参考訳(メタデータ) (2021-04-27T01:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。