論文の概要: PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging
Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2306.09626v1
- Date: Fri, 16 Jun 2023 04:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:57:45.103918
- Title: PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging
Facial Expression Recognition
- Title(参考訳): PAtt-Lite:顔表情認識のための軽量パッチと注意移動ネット
- Authors: Jia Le Ngwe, Kian Ming Lim, Chin Poo Lee, and Thian Song Ong
- Abstract要約: 顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。
MobileNetV1に基づく軽量パッチとアテンションネットワークが提案され、課題のある条件下でFER性能を改善する。
評価実験の結果,提案手法の有効性が確認された。
- 参考スコア(独自算出の注目度): 5.206057210246861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Expression Recognition (FER) is a machine learning problem that deals
with recognizing human facial expressions. While existing work has achieved
performance improvements in recent years, FER in the wild and under challenging
conditions remains a challenge. In this paper, a lightweight patch and
attention network based on MobileNetV1, referred to as PAtt-Lite, is proposed
to improve FER performance under challenging conditions. A truncated
ImageNet-pre-trained MobileNetV1 is utilized as the backbone feature extractor
of the proposed method. In place of the truncated layers is a patch extraction
block that is proposed for extracting significant local facial features to
enhance the representation from MobileNetV1, especially under challenging
conditions. An attention classifier is also proposed to improve the learning of
these patched feature maps from the extremely lightweight feature extractor.
The experimental results on public benchmark databases proved the effectiveness
of the proposed method. PAtt-Lite achieved state-of-the-art results on CK+,
RAF-DB, FER2013, FERPlus, and the challenging conditions subsets for RAF-DB and
FERPlus. The source code for the proposed method will be available at
https://github.com/JLREx/PAtt-Lite.
- Abstract(参考訳): 顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。
既存の作業は近年、パフォーマンス改善を達成していますが、野放しで挑戦的な条件下でFERは依然として課題です。
本稿では,Platt-Liteと呼ばれるMobileNetV1に基づく軽量パッチ・アテンションネットワークを提案する。
提案手法のバックボーン特徴抽出器として,Truncated ImageNet-pre-trained MobileNetV1を利用する。
切断層の代わりにパッチ抽出ブロックが提案されており、特に困難な条件下において、mobilenetv1からの表現を強化するために重要な局所的な顔特徴を抽出する。
極めて軽量な特徴抽出器からのパッチ付き特徴マップの学習を改善するために、注意分類器も提案されている。
公開ベンチマークデータベースを用いた実験により,提案手法の有効性が実証された。
PAtt-LiteはCK+、RAF-DB、FER2013、FERPlus、RAF-DB、FERPlusの挑戦的な条件サブセットで最先端の結果を得た。
提案するメソッドのソースコードはhttps://github.com/jlrex/patt-liteで入手できる。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting [28.673734895558322]
本稿では,未知の人間の表情を識別することを目的とした,オープンセット映像に基づく表情認識タスクを提案する。
既存のアプローチでは、CLIPのような大規模ビジョン言語モデルを活用して、未確認のクラスを特定することで、オープンセット認識に対処している。
本稿では,CLIPの映像ベース表情詳細を効果的にモデル化する能力を大幅に向上させる新しいHuman Expression-Sensitive Prompting(HESP)機構を提案する。
論文 参考訳(メタデータ) (2024-04-26T01:21:08Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [49.276940875825126]
CNNフェースフォージェリ検出器と比較して、VT法はトランスの表現性を生かし、優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
MoE-FFDは軽量のローランド適応(LoRA)層とアダプタ層のみを更新し、ViTバックボーンは凍結されている。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文 参考訳(メタデータ) (2023-04-14T16:27:56Z) - Vision Transformer with Attentive Pooling for Robust Facial Expression
Recognition [35.46476994042832]
ノイズをプールする2つのモジュール(APモジュール)を直接提示する。
彼らはモデルをガイドし、最も差別的な特徴を強調しながら、あまり関係のない特徴の影響を減らすことを目指している。
簡単に実装でき、学習可能なパラメータがなければ、APPとATPは直感的に計算コストを削減し、性能を向上する。
論文 参考訳(メタデータ) (2022-12-11T10:33:19Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-11-27T15:46:53Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Learning to Amend Facial Expression Representation via De-albino and
Affinity [0.5076419064097732]
Amend Representation Module (ARM) は、プール層に代わるものだ。
ARMは2つの異なる方向からの表情表現を効率的に高めます。
当社のARMは、顔認識(FER)のパフォーマンスを著しく向上させます。
論文 参考訳(メタデータ) (2021-03-18T11:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。