Fugu-MT 論文翻訳(概要): Landmark-Aware and Part-based Ensemble Transfer Learning Network for Facial Expression Recognition from Static images

論文の概要: Landmark-Aware and Part-based Ensemble Transfer Learning Network for Facial Expression Recognition from Static images

arxiv url: http://arxiv.org/abs/2104.11274v1
Date: Thu, 22 Apr 2021 18:38:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-26 13:11:45.547285
Title: Landmark-Aware and Part-based Ensemble Transfer Learning Network for Facial Expression Recognition from Static images
Title（参考訳）: 静的画像からの表情認識のためのランドマーク認識とパートベースアンサンブル転送学習ネットワーク
Authors: Rohan Wadhawan and Tapan K. Gandhi
Abstract要約: パーツベースのエンサンブルトランスファーラーニングネットワークは、人間の表情認識をモデル化します。 5つのサブネットワークで構成され、各サブネットワークは顔ランドマークの5つのサブセットのうちの1つから転送学習を行う。リアルタイムデプロイメントの計算効率を保証するために、わずか3.28ドルのFLOPSが106ドルである。
参考スコア（独自算出の注目度）: 0.5156484100374059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Facial Expression Recognition from static images is a challenging problem in computer vision applications. Convolutional Neural Network (CNN), the state-of-the-art method for various computer vision tasks, has had limited success in predicting expressions from faces having extreme poses, illumination, and occlusion conditions. To mitigate this issue, CNNs are often accompanied by techniques like transfer, multi-task, or ensemble learning that often provide high accuracy at the cost of high computational complexity. In this work, we propose a Part-based Ensemble Transfer Learning network, which models how humans recognize facial expressions by correlating the spatial orientation pattern of the facial features with a specific expression. It consists of 5 sub-networks, in which each sub-network performs transfer learning from one of the five subsets of facial landmarks: eyebrows, eyes, nose, mouth, or jaw to expression classification. We test the proposed network on the CK+, JAFFE, and SFEW datasets, and it outperforms the benchmark for CK+ and JAFFE datasets by 0.51\% and 5.34\%, respectively. Additionally, it consists of a total of 1.65M model parameters and requires only 3.28 $\times$ $10^{6}$ FLOPS, which ensures computational efficiency for real-time deployment. Grad-CAM visualizations of our proposed ensemble highlight the complementary nature of its sub-networks, a key design parameter of an effective ensemble network. Lastly, cross-dataset evaluation results reveal that our proposed ensemble has a high generalization capacity. Our model trained on the SFEW Train dataset achieves an accuracy of 47.53\% on the CK+ dataset, which is higher than what it achieves on the SFEW Valid dataset.
Abstract（参考訳）: 静的画像からの表情認識はコンピュータビジョンアプリケーションでは難しい問題である。コンピュータビジョンタスクの最先端手法である畳み込みニューラルネットワーク(convolutional neural network, cnn)は、極端なポーズ、照明、咬合条件を持つ顔からの表情の予測に成功している。この問題を軽減するため、CNNには転送、マルチタスク、アンサンブル学習などのテクニックが伴い、高い計算複雑性を犠牲にして高い精度を提供することが多い。本研究では,顔の特徴の空間的方向パターンを特定の表情に関連付けて,人間の表情認識をモデル化する,部分的なアンサンブル・トランスファー学習ネットワークを提案する。それは5つのサブネットワークで構成されており、各サブネットワークは、顔のランドマークの5つのサブセットのうちの1つ(まぶた、目、鼻、口、顎)から表情分類への転送学習を行う。提案したネットワークをCK+, JAFFE, SFEWデータセット上でテストし, CK+, JAFFEデータセットのベンチマークをそれぞれ0.51\%, 5.34\%で上回った。さらに、合計1.65Mモデルパラメータで構成され、リアルタイムデプロイメントの計算効率を保証するために、わずか3.28$\times$10^{6}$ FLOPSしか必要としない。提案したアンサンブルのGrad-CAM視覚化では,有効アンサンブルネットワークの設計パラメータであるサブネットワークの相補性を強調した。最後に,クロスデータセット評価の結果から,提案するアンサンブルは高い一般化能力を持つことが明らかとなった。 sfew trainデータセットでトレーニングされたモデルは、ck+データセット上で47.53\%の精度を実現しています。

関連論文リスト

Hybrid Generative Fusion for Efficient and Privacy-Preserving Face Recognition Dataset Generation [87.48785461212556]
我々は,顔認識モデルをトレーニングするための高品質な顔データセットの構築に焦点を当てたDataCV ICCV Challengeへのアプローチを提案する。構築されたデータセットには、既存の公開顔データセットと重複するIDが含まれてはならない。提案手法は,競技において第1位となる textbf1 を達成し,実験結果から10K,20K,100K 単位のモデル性能の向上が得られた。
論文参考訳（メタデータ） (2025-08-14T14:14:18Z)
FTCFormer: Fuzzy Token Clustering Transformer for Image Classification [22.410199372985584]
トランスフォーマーベースのディープニューラルネットワークは、様々なコンピュータビジョンタスクで顕著な成功を収めている。ほとんどのトランスフォーマーアーキテクチャは、イメージを均一なグリッドベースの視覚トークンに埋め込み、画像領域の基本的な意味を無視する。本研究では,空間的位置ではなく意味に基づく視覚トークンを動的に生成するFuzzy Token Clustering Transformer (FTCFormer)を提案する。
論文参考訳（メタデータ） (2025-07-14T13:49:47Z)
CAE-Net: Generalized Deepfake Image Detection using Convolution and Attention Mechanisms with Spatial and Frequency Domain Features [0.6700983301090583]
クラス不均衡に対処し,アンサンブルベースのアーキテクチャであるemphCAE-Netを考案した。私たちのアーキテクチャは、畳み込みと注目に基づくアンサンブルネットワークで構成されており、3つの異なるニューラルネットワークアーキテクチャを採用している。 EfficientNet B0アーキテクチャは90.79%、ConvNeXtアーキテクチャは89.49%、DeiTアーキテクチャは89.32%である。
論文参考訳（メタデータ） (2025-02-15T06:02:11Z)
Bridging the Gaps: Utilizing Unlabeled Face Recognition Datasets to Boost Semi-Supervised Facial Expression Recognition [5.750927184237346]
我々は、半教師付きFERを高めるために、大きな未ラベルの顔認識(FR)データセットを活用することに重点を置いている。具体的には,アノテーションを使わずに大規模な顔画像の事前訓練を行う。ラベル付き画像や多彩な画像の不足を緩和するために、Mixupベースのデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2024-10-23T07:26:19Z)
HSEmotion Team at the 7th ABAW Challenge: Multi-Task Learning and Compound Facial Expression Recognition [16.860963320038902]
HSEmotionチームは,第7回ABAW(Affective Behavior Analysis in-the-wild)コンペティションの2つの課題について報告する。マルチタスク設定で事前学習したフレームレベルの顔特徴抽出器に基づく効率的なパイプラインを提案する。ニューラルネットワークの軽量アーキテクチャを利用することで、私たちのテクニックのプライバシ意識を確保する。
論文参考訳（メタデータ） (2024-07-18T05:47:49Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
Data Augmentation and Transfer Learning Approaches Applied to Facial Expressions Recognition [0.3481985817302898]
本稿では,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。我々は、感情タイプごとに新しい合成画像を生成することができるGANモデルをスクラッチから構築する。拡張データセットでは、異なるアーキテクチャで事前訓練された畳み込みニューラルネットワークを微調整します。
論文参考訳（メタデータ） (2024-02-15T14:46:03Z)
SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-08-22T15:38:39Z)
Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文参考訳（メタデータ） (2021-12-09T19:13:41Z)
Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文参考訳（メタデータ） (2021-10-29T16:51:16Z)
Facial expression and attributes recognition based on multi-task learning of lightweight neural networks [9.162936410696409]
顔の識別と顔の属性の分類のための軽量畳み込みニューラルネットワークのマルチタスクトレーニングを検討する。顔の表情を予測するためには,これらのネットワークを微調整する必要がある。 MobileNet、EfficientNet、RexNetアーキテクチャに基づくいくつかのモデルが提示される。
論文参考訳（メタデータ） (2021-03-31T14:21:04Z)
Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。 PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文参考訳（メタデータ） (2020-07-07T03:36:28Z)
Deep Multi-Facial Patches Aggregation Network For Facial Expression Recognition [5.735035463793008]
深層多面的パッチアグリゲーションネットワークに基づく顔表情認識(FER)のアプローチを提案する。ディープ機能は、ディープサブネットワークを使用して顔のパッチから学習され、表現分類のために1つのディープアーキテクチャに集約される。
論文参考訳（メタデータ） (2020-02-20T17:57:06Z)
Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文参考訳（メタデータ） (2020-02-08T13:09:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。