論文の概要: PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging
Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2306.09626v1
- Date: Fri, 16 Jun 2023 04:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:57:45.103918
- Title: PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging
Facial Expression Recognition
- Title(参考訳): PAtt-Lite:顔表情認識のための軽量パッチと注意移動ネット
- Authors: Jia Le Ngwe, Kian Ming Lim, Chin Poo Lee, and Thian Song Ong
- Abstract要約: 顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。
MobileNetV1に基づく軽量パッチとアテンションネットワークが提案され、課題のある条件下でFER性能を改善する。
評価実験の結果,提案手法の有効性が確認された。
- 参考スコア(独自算出の注目度): 5.206057210246861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Expression Recognition (FER) is a machine learning problem that deals
with recognizing human facial expressions. While existing work has achieved
performance improvements in recent years, FER in the wild and under challenging
conditions remains a challenge. In this paper, a lightweight patch and
attention network based on MobileNetV1, referred to as PAtt-Lite, is proposed
to improve FER performance under challenging conditions. A truncated
ImageNet-pre-trained MobileNetV1 is utilized as the backbone feature extractor
of the proposed method. In place of the truncated layers is a patch extraction
block that is proposed for extracting significant local facial features to
enhance the representation from MobileNetV1, especially under challenging
conditions. An attention classifier is also proposed to improve the learning of
these patched feature maps from the extremely lightweight feature extractor.
The experimental results on public benchmark databases proved the effectiveness
of the proposed method. PAtt-Lite achieved state-of-the-art results on CK+,
RAF-DB, FER2013, FERPlus, and the challenging conditions subsets for RAF-DB and
FERPlus. The source code for the proposed method will be available at
https://github.com/JLREx/PAtt-Lite.
- Abstract(参考訳): 顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。
既存の作業は近年、パフォーマンス改善を達成していますが、野放しで挑戦的な条件下でFERは依然として課題です。
本稿では,Platt-Liteと呼ばれるMobileNetV1に基づく軽量パッチ・アテンションネットワークを提案する。
提案手法のバックボーン特徴抽出器として,Truncated ImageNet-pre-trained MobileNetV1を利用する。
切断層の代わりにパッチ抽出ブロックが提案されており、特に困難な条件下において、mobilenetv1からの表現を強化するために重要な局所的な顔特徴を抽出する。
極めて軽量な特徴抽出器からのパッチ付き特徴マップの学習を改善するために、注意分類器も提案されている。
公開ベンチマークデータベースを用いた実験により,提案手法の有効性が実証された。
PAtt-LiteはCK+、RAF-DB、FER2013、FERPlus、RAF-DB、FERPlusの挑戦的な条件サブセットで最先端の結果を得た。
提案するメソッドのソースコードはhttps://github.com/jlrex/patt-liteで入手できる。
関連論文リスト
- Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
Segment Anything Model (SAM) は、その顕著な一般化能力により、異常セグメンテーションタスクにおいて大きな進歩を遂げている。
SAMを直接適用する既存のメソッドは、しばしばドメインシフトの問題を見落としている。
本稿では, SAMの異常セグメンテーションに対する知覚能力を高めることを目的とした, 自己パーセプティノンチューニング(SPT)手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。
テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文 参考訳(メタデータ) (2023-07-17T14:08:17Z) - Vision Transformer with Attentive Pooling for Robust Facial Expression
Recognition [35.46476994042832]
ノイズをプールする2つのモジュール(APモジュール)を直接提示する。
彼らはモデルをガイドし、最も差別的な特徴を強調しながら、あまり関係のない特徴の影響を減らすことを目指している。
簡単に実装でき、学習可能なパラメータがなければ、APPとATPは直感的に計算コストを削減し、性能を向上する。
論文 参考訳(メタデータ) (2022-12-11T10:33:19Z) - A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-11-27T15:46:53Z) - More comprehensive facial inversion for more effective expression
recognition [8.102564078640274]
IFER(Inversion FER)と呼ばれるFERタスクの画像反転機構に基づく新しい生成手法を提案する。
ASITは、分布アライメント損失に制約された、ソースと生成された画像間のセマンティック特徴のコサイン類似度を測定する画像反転判別器を備えている。
FFHQやCelebA-HQなどの顔データセット上でASITを広範囲に評価し,現状の顔インバージョン性能を実現する方法を示した。
論文 参考訳(メタデータ) (2022-11-24T12:31:46Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。