論文の概要: Improvement in Facial Emotion Recognition using Synthetic Data Generated by Diffusion Model
- arxiv url: http://arxiv.org/abs/2411.10863v1
- Date: Sat, 16 Nov 2024 19:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:32:20.169370
- Title: Improvement in Facial Emotion Recognition using Synthetic Data Generated by Diffusion Model
- Title(参考訳): 拡散モデルによる合成データを用いた顔の感情認識の改善
- Authors: Arnab Kumar Roy, Hemant Kumar Kathania, Adhitiya Sharma,
- Abstract要約: 顔の感情認識(FER)は、コンピュータビジョンにおいて重要な役割を担い、人間とコンピュータの相互作用、感情コンピューティング、メンタルヘルスモニタリングやパーソナライズされた学習環境などの分野に重要な応用がある。
FERタスクにおける大きな課題は、利用可能なデータセットで一般的に見られるクラス不均衡であり、モデルパフォーマンスと一般化の両方を妨げる可能性がある。
我々は、合成データ拡張とResEmoteNetモデルを活用して、顔の感情認識タスクにおける全体的なパフォーマンスを向上させることで、データ不均衡の問題に取り組む。
- 参考スコア(独自算出の注目度): 2.205257684291835
- License:
- Abstract: Facial Emotion Recognition (FER) plays a crucial role in computer vision, with significant applications in human-computer interaction, affective computing, and areas such as mental health monitoring and personalized learning environments. However, a major challenge in FER task is the class imbalance commonly found in available datasets, which can hinder both model performance and generalization. In this paper, we tackle the issue of data imbalance by incorporating synthetic data augmentation and leveraging the ResEmoteNet model to enhance the overall performance on facial emotion recognition task. We employed Stable Diffusion 2 and Stable Diffusion 3 Medium models to generate synthetic facial emotion data, augmenting the training sets of the FER2013 and RAF-DB benchmark datasets. Training ResEmoteNet with these augmented datasets resulted in substantial performance improvements, achieving accuracies of 96.47% on FER2013 and 99.23% on RAF-DB. These findings shows an absolute improvement of 16.68% in FER2013, 4.47% in RAF-DB and highlight the efficacy of synthetic data augmentation in strengthening FER models and underscore the potential of advanced generative models in FER research and applications. The source code for ResEmoteNet is available at https://github.com/ArnabKumarRoy02/ResEmoteNet
- Abstract(参考訳): 顔の感情認識(FER)は、コンピュータビジョンにおいて重要な役割を担い、人間とコンピュータの相互作用、感情コンピューティング、メンタルヘルスモニタリングやパーソナライズされた学習環境などの分野に重要な応用がある。
しかし、FERタスクにおける大きな課題は、利用可能なデータセットで一般的に見られるクラス不均衡であり、モデル性能と一般化の両方を妨げる可能性がある。
本稿では、合成データ拡張とResEmoteNetモデルを活用して、顔の感情認識における全体的なパフォーマンスを向上させることにより、データ不均衡の問題に取り組む。
我々は、FER2013とRAF-DBベンチマークデータセットのトレーニングセットを増強し、合成顔の感情データを生成するために、安定拡散2と安定拡散3媒体モデルを使用した。
ResEmoteNetをこれらのデータセットでトレーニングすると、パフォーマンスが大幅に向上し、FER2013では96.47%、RAF-DBでは99.23%向上した。
これらの結果は、FER2013の16.68%、RAF-DBの4.47%の絶対的な改善を示し、FERモデルの強化における合成データ増強の有効性を強調し、FER研究および応用における高度な生成モデルの可能性を強調している。
ResEmoteNetのソースコードはhttps://github.com/ArnabKumarRoy02/ResEmoteNetで入手できる。
関連論文リスト
- Data Augmentation via Diffusion Model to Enhance AI Fairness [1.2979015577834876]
本稿では,AIフェアネスを改善するために合成データを生成する拡散モデルの可能性について検討する。
Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM) を用いてデータ拡張を行った。
実験結果から,Tab-DDPMにより生成された合成データは,二項分類の公平性を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-20T18:52:31Z) - Integrating Features for Recognizing Human Activities through Optimized Parameters in Graph Convolutional Networks and Transformer Architectures [0.6157382820537721]
本研究は,特徴融合が行動認識の精度に与える影響を強調した。
2つのディープラーニングモデル、特にTransformerモデルとGraph Convolutional Network(PO-GCN)の精度とF1スコアを評価した。
PO-GCNは活動認識において標準モデルより優れている。
論文 参考訳(メタデータ) (2024-08-29T11:07:48Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - SDFR: Synthetic Data for Face Recognition Competition [51.9134406629509]
大規模な顔認識データセットは、インターネットをクロールして個人の同意なしに収集し、法的、倫理的、プライバシー上の懸念を提起する。
近年、ウェブクローリングされた顔認識データセットにおける懸念を軽減するために、合成顔認識データセットの生成が提案されている。
本稿では,第18回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024)と共同で開催されているSynthetic Data for Face Recognition (SDFR)コンペティションの概要を紹介する。
SDFRコンペティションは2つのタスクに分けられ、参加者は新しい合成データセットまたは/または既存のデータセットを使用して顔認識システムを訓練することができる。
論文 参考訳(メタデータ) (2024-04-06T10:30:31Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Symbolic Regression as Feature Engineering Method for Machine and Deep
Learning Regression Tasks [0.6906005491572401]
本研究では,機械学習モデルに先立って,記号回帰(SR)を効果的な特徴工学(FE)プロセスとして統合することを提案する。
合成および実世界の物理関連データセットを広範囲に実験することにより、SR起源の特徴の組み入れにより、機械学習とディープラーニングの回帰モデルの両方の予測能力が著しく向上することを示す。
論文 参考訳(メタデータ) (2023-11-10T12:34:28Z) - Data augmentation for learning predictive models on EEG: a systematic
comparison [79.84079335042456]
脳波(EEG)分類タスクの深層学習は、ここ数年急速に増加している。
EEG分類タスクのディープラーニングは、比較的小さなEEGデータセットによって制限されている。
データ拡張は、コンピュータビジョンや音声などのアプリケーションにまたがる最先端のパフォーマンスを得るために重要な要素となっている。
論文 参考訳(メタデータ) (2022-06-29T09:18:15Z) - Facial Emotion Recognition: State of the Art Performance on FER2013 [0.0]
FER2013データセットで最高の単一ネットワーク分類精度を達成しました。
我々のモデルは、追加のトレーニングデータを用いることなく、FER2013上で73.28 %の最先端のシングルネットワーク精度を実現する。
論文 参考訳(メタデータ) (2021-05-08T04:20:53Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。