論文の概要: Vision Transformer with Attentive Pooling for Robust Facial Expression
Recognition
- arxiv url: http://arxiv.org/abs/2212.05463v1
- Date: Sun, 11 Dec 2022 10:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:28:21.003674
- Title: Vision Transformer with Attentive Pooling for Robust Facial Expression
Recognition
- Title(参考訳): ロバスト表情認識のための注意プール付き視覚変換器
- Authors: Fanglei Xue, Qiangchang Wang, Zichang Tan, Zhongsong Ma, and Guodong
Guo
- Abstract要約: ノイズをプールする2つのモジュール(APモジュール)を直接提示する。
彼らはモデルをガイドし、最も差別的な特徴を強調しながら、あまり関係のない特徴の影響を減らすことを目指している。
簡単に実装でき、学習可能なパラメータがなければ、APPとATPは直感的に計算コストを削減し、性能を向上する。
- 参考スコア(独自算出の注目度): 35.46476994042832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Expression Recognition (FER) in the wild is an extremely challenging
task. Recently, some Vision Transformers (ViT) have been explored for FER, but
most of them perform inferiorly compared to Convolutional Neural Networks
(CNN). This is mainly because the new proposed modules are difficult to
converge well from scratch due to lacking inductive bias and easy to focus on
the occlusion and noisy areas. TransFER, a representative transformer-based
method for FER, alleviates this with multi-branch attention dropping but brings
excessive computations. On the contrary, we present two attentive pooling (AP)
modules to pool noisy features directly. The AP modules include Attentive Patch
Pooling (APP) and Attentive Token Pooling (ATP). They aim to guide the model to
emphasize the most discriminative features while reducing the impacts of less
relevant features. The proposed APP is employed to select the most informative
patches on CNN features, and ATP discards unimportant tokens in ViT. Being
simple to implement and without learnable parameters, the APP and ATP
intuitively reduce the computational cost while boosting the performance by
ONLY pursuing the most discriminative features. Qualitative results demonstrate
the motivations and effectiveness of our attentive poolings. Besides,
quantitative results on six in-the-wild datasets outperform other
state-of-the-art methods.
- Abstract(参考訳): 野生における表情認識(FER)は非常に難しい課題である。
近年、いくつかのビジョントランスフォーマー (ViT) がFERのために探索されているが、その多くは畳み込みニューラルネットワーク (CNN) と比較して劣っている。
これは, 誘導バイアスの欠如や咬合や騒音領域への集中が容易なため, 新モジュールがスクラッチからうまく収束しにくいことが主な原因である。
FERの代表的なトランスフォーマーベースの方法であるTransFERは、これをマルチブランチのアテンションダウンで緩和するが、過剰な計算をもたらす。
反対に,注意プーリング(ap)モジュールを2つ設け,ノイズの多い機能を直接プールする。
APモジュールには、Attentive Patch Pooling (APP)とAttentive Token Pooling (ATP)がある。
彼らはモデルを導き、最も識別的な特徴を強調しながら、より関連性の低い特徴の影響を減らすことを目指している。
提案するAPPはCNN機能に関する最も情報性の高いパッチの選択に使用され、ATPはViTで重要でないトークンを破棄する。
簡単に実装でき、学習可能なパラメータなしでは、アプリとatpは直感的に計算コストを削減し、最も識別的な特徴だけを追求することでパフォーマンスを高めます。
定性的な結果は,注意プールの動機と効果を示す。
さらに、Wild内の6つのデータセットの定量的結果は、他の最先端の手法よりも優れている。
関連論文リスト
- MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Energizing Federated Learning via Filter-Aware Attention [39.17451229130728]
フェデレートラーニング(FL)は有望な分散パラダイムであり、データ共有の必要性を排除しつつ、データの異質性による課題に直面している。
パラメータ再構成にパーソナライズされたフィルタアテンションを利用するFedOFAを提案する。
コアとなるTFAモジュールは、パーソナライズされたフィルタ対応アテンションマップを正確に抽出するように設計されている。
AGPSは、冗長なニューロンを隠蔽しながら重要なニューロンを選択的に保持し、性能犠牲なしに通信コストを低減させる。
論文 参考訳(メタデータ) (2023-11-18T09:09:38Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging Facial Expression Recognition [8.680928529451249]
顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。
MobileNetV1に基づく軽量パッチとアテンションネットワークが提案され、課題のある条件下でFER性能を改善する。
Patt-LiteはCK+、RAF-DB、FER2013、FERPlus、そしてRAF-DBとFERPlusの挑戦的な条件サブセットで最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-16T04:51:18Z) - PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文 参考訳(メタデータ) (2023-04-14T16:27:56Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。