論文の概要: A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2403.14318v1
- Date: Thu, 21 Mar 2024 11:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:38:14.949937
- Title: A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition
- Title(参考訳): 多視点顔表情認識のためのマルチスケール特徴融合による軽量注意型ディープネットワーク
- Authors: Ali Ezati, Mohammadreza Dezyani, Rajib Rana, Roozbeh Rajabi, Ahmad Ayatollahi,
- Abstract要約: これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。
提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
- 参考スコア(独自算出の注目度): 2.9581436761331017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural networks (CNNs) and their variations have shown effectiveness in facial expression recognition (FER). However, they face challenges when dealing with high computational complexity and multi-view head poses in real-world scenarios. We introduce a lightweight attentional network incorporating multi-scale feature fusion (LANMSFF) to tackle these issues. For the first challenge, we have carefully designed a lightweight fully convolutional network (FCN). We address the second challenge by presenting two novel components, namely mass attention (MassAtt) and point wise feature selection (PWFS) blocks. The MassAtt block simultaneously generates channel and spatial attention maps to recalibrate feature maps by emphasizing important features while suppressing irrelevant ones. On the other hand, the PWFS block employs a feature selection mechanism that discards less meaningful features prior to the fusion process. This mechanism distinguishes it from previous methods that directly fuse multi-scale features. Our proposed approach achieved results comparable to state-of-the-art methods in terms of parameter counts and robustness to pose variation, with accuracy rates of 90.77% on KDEF, 70.44% on FER-2013, and 86.96% on FERPlus datasets. The code for LANMSFF is available at https://github.com/AE-1129/LANMSFF.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とその変異は、表情認識(FER)において有効であることが示されている。
しかし、計算の複雑さやマルチビューヘッドを扱う場合、現実のシナリオでは課題に直面している。
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
最初の課題として、我々は軽量完全畳み込みネットワーク(FCN)を慎重に設計した。
2つ目の課題は、マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提示することである。
MassAttブロックは、重要な特徴を強調しつつ、無関係な特徴を抑えながら特徴マップを再検討するために、チャンネルと空間の注意マップを同時に生成する。
一方、PWFSブロックは、融合前に意味の薄い特徴を破棄する特徴選択機構を採用している。
このメカニズムは、マルチスケール機能を直接フューズする従来の方法と区別する。
提案手法は,KDEFでは90.77%,FER-2013では70.44%,FERPlusデータセットでは86.96%の精度で,パラメータカウントとロバスト性を比較検討した。
LANMSFFのコードはhttps://github.com/AE-1129/LANMSFFで入手できる。
関連論文リスト
- Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization [9.90146712189936]
本稿では,マルチ受信フィールド非局所ネットワーク(MRFNLN)を提案する。
マルチストリーム機能アテンションブロック(MSFAB)とクロス非ローカルブロック(CNLB)として設計されている。
これは、150万のパラメータ未満の最近の最先端の脱ハージング手法よりも優れています。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文 参考訳(メタデータ) (2023-04-14T16:27:56Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - MHFC: Multi-Head Feature Collaboration for Few-Shot Learning [17.699793591135904]
少ないショットラーニングは、データスカース問題に対処することを目的としている。
本稿では,マルチヘッド特徴を統一空間に投影しようとするマルチヘッド特徴協調(MHFC)アルゴリズムを提案する。
提案手法を5つのベンチマークデータセットで評価し,最新技術と比較して2.1%-7.8%の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-09-16T08:09:35Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Lightweight Image Super-Resolution with Multi-scale Feature Interaction
Network [15.846394239848959]
軽量マルチスケール機能インタラクションネットワーク(MSFIN)を提案する。
軽量SISRでは、MSFINは受容野を拡張し、低解像度の観測画像の情報的特徴を適切に活用する。
提案したMSFINは,より軽量なモデルで最先端技術に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-03-24T07:25:21Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Multi-Attention Based Ultra Lightweight Image Super-Resolution [9.819866781885446]
マルチアテンティブ・フィーチャーフュージョン・スーパーリゾリューション・ネットワーク(MAFFSRN)を提案する。
MAFFSRNは、特徴抽出ブロックとして機能する提案された特徴融合グループ(FFG)から構成される。
我々は,MAFFSRNモデルを用いてAIM 2020の効率的なSRチャレンジに参加し,メモリ使用率,浮動小数点演算(FLOP),パラメータ数でそれぞれ1位,3位,4位を獲得した。
論文 参考訳(メタデータ) (2020-08-29T05:19:32Z) - Deep Multi-task Multi-label CNN for Effective Facial Attribute
Classification [53.58763562421771]
DMM-CNN(ディープ・マルチタスク・マルチラベル・CNN)による効果的な顔属性分類(FAC)を提案する。
具体的には、DMM-CNNは、2つの密接に関連するタスク(顔のランドマーク検出とFAC)を共同で最適化し、マルチタスク学習を活用することにより、FACの性能を向上させる。
2つの異なるネットワークアーキテクチャは2つの属性のグループの特徴を抽出するために設計され、トレーニング中に各顔属性に損失重みを自動的に割り当てる新しい動的重み付け方式が提案されている。
論文 参考訳(メタデータ) (2020-02-10T12:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。