論文の概要: A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2403.14318v1
- Date: Thu, 21 Mar 2024 11:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:38:14.949937
- Title: A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition
- Title(参考訳): 多視点顔表情認識のためのマルチスケール特徴融合による軽量注意型ディープネットワーク
- Authors: Ali Ezati, Mohammadreza Dezyani, Rajib Rana, Roozbeh Rajabi, Ahmad Ayatollahi,
- Abstract要約: これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。
提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
- 参考スコア(独自算出の注目度): 2.9581436761331017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural networks (CNNs) and their variations have shown effectiveness in facial expression recognition (FER). However, they face challenges when dealing with high computational complexity and multi-view head poses in real-world scenarios. We introduce a lightweight attentional network incorporating multi-scale feature fusion (LANMSFF) to tackle these issues. For the first challenge, we have carefully designed a lightweight fully convolutional network (FCN). We address the second challenge by presenting two novel components, namely mass attention (MassAtt) and point wise feature selection (PWFS) blocks. The MassAtt block simultaneously generates channel and spatial attention maps to recalibrate feature maps by emphasizing important features while suppressing irrelevant ones. On the other hand, the PWFS block employs a feature selection mechanism that discards less meaningful features prior to the fusion process. This mechanism distinguishes it from previous methods that directly fuse multi-scale features. Our proposed approach achieved results comparable to state-of-the-art methods in terms of parameter counts and robustness to pose variation, with accuracy rates of 90.77% on KDEF, 70.44% on FER-2013, and 86.96% on FERPlus datasets. The code for LANMSFF is available at https://github.com/AE-1129/LANMSFF.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とその変異は、表情認識(FER)において有効であることが示されている。
しかし、計算の複雑さやマルチビューヘッドを扱う場合、現実のシナリオでは課題に直面している。
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
最初の課題として、我々は軽量完全畳み込みネットワーク(FCN)を慎重に設計した。
2つ目の課題は、マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提示することである。
MassAttブロックは、重要な特徴を強調しつつ、無関係な特徴を抑えながら特徴マップを再検討するために、チャンネルと空間の注意マップを同時に生成する。
一方、PWFSブロックは、融合前に意味の薄い特徴を破棄する特徴選択機構を採用している。
このメカニズムは、マルチスケール機能を直接フューズする従来の方法と区別する。
提案手法は,KDEFでは90.77%,FER-2013では70.44%,FERPlusデータセットでは86.96%の精度で,パラメータカウントとロバスト性を比較検討した。
LANMSFFのコードはhttps://github.com/AE-1129/LANMSFFで入手できる。
関連論文リスト
- DFE-IANet: A Method for Polyp Image Classification Based on Dual-domain Feature Extraction and Interaction Attention [8.199299549735343]
スペクトル変換と特徴相互作用の両方に基づく新しいネットワークDFE-IANetを提案する。
DFE-IANetは4Mのパラメータしか持たないため、効率の面では最新のネットワークや古典的ネットワークよりも優れている。
DFE-IANetは、挑戦的なKvasirデータセットで最新技術(SOTA)の結果を達成し、Top-1の精度は93.94%である。
論文 参考訳(メタデータ) (2024-07-30T14:16:09Z) - Multi-scale Quaternion CNN and BiGRU with Cross Self-attention Feature Fusion for Fault Diagnosis of Bearing [5.3598912592106345]
深層学習は断層診断(FD)に著しい進歩をもたらした
マルチスケール畳み込み畳み込みニューラルネットワーク(MQCNN)、双方向ゲートリカレントユニット(BiG)、クロス自己注意機能融合(CSAFF)を統合した新しいFDモデルを提案する。
論文 参考訳(メタデータ) (2024-05-25T07:55:02Z) - Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization [9.90146712189936]
本稿では,マルチ受信フィールド非局所ネットワーク(MRFNLN)を提案する。
マルチストリーム機能アテンションブロック(MSFAB)とクロス非ローカルブロック(CNLB)として設計されている。
これは、150万のパラメータ未満の最近の最先端の脱ハージング手法よりも優れています。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文 参考訳(メタデータ) (2023-04-14T16:27:56Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Multi-Attention Based Ultra Lightweight Image Super-Resolution [9.819866781885446]
マルチアテンティブ・フィーチャーフュージョン・スーパーリゾリューション・ネットワーク(MAFFSRN)を提案する。
MAFFSRNは、特徴抽出ブロックとして機能する提案された特徴融合グループ(FFG)から構成される。
我々は,MAFFSRNモデルを用いてAIM 2020の効率的なSRチャレンジに参加し,メモリ使用率,浮動小数点演算(FLOP),パラメータ数でそれぞれ1位,3位,4位を獲得した。
論文 参考訳(メタデータ) (2020-08-29T05:19:32Z) - Deep Multi-task Multi-label CNN for Effective Facial Attribute
Classification [53.58763562421771]
DMM-CNN(ディープ・マルチタスク・マルチラベル・CNN)による効果的な顔属性分類(FAC)を提案する。
具体的には、DMM-CNNは、2つの密接に関連するタスク(顔のランドマーク検出とFAC)を共同で最適化し、マルチタスク学習を活用することにより、FACの性能を向上させる。
2つの異なるネットワークアーキテクチャは2つの属性のグループの特徴を抽出するために設計され、トレーニング中に各顔属性に損失重みを自動的に割り当てる新しい動的重み付け方式が提案されている。
論文 参考訳(メタデータ) (2020-02-10T12:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。