論文の概要: POSTER V2: A simpler and stronger facial expression recognition network
- arxiv url: http://arxiv.org/abs/2301.12149v1
- Date: Sat, 28 Jan 2023 10:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:47:33.823885
- Title: POSTER V2: A simpler and stronger facial expression recognition network
- Title(参考訳): POSTER V2: よりシンプルで強力な表情認識ネットワーク
- Authors: Jiawei Mao, Rui Xu, Xuesong Yin, Yuanqi Chang, Binling Nie, Aibin
Huang
- Abstract要約: 顔の表情認識(FER)は、人間とコンピュータの相互作用のような現実世界の様々な応用において重要な役割を果たしている。
POSTER V1は、顔のランドマークと画像の特徴を効果的に組み合わせることで、FERにおける最先端(SOTA)性能を達成する。
本稿では,POSTER V1を3方向(クロスフュージョン,2ストリーム,マルチスケール)で改善するPOSTER V2を提案する。
- 参考スコア(独自算出の注目度): 8.836565857279052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression recognition (FER) plays an important role in a variety of
real-world applications such as human-computer interaction. POSTER V1 achieves
the state-of-the-art (SOTA) performance in FER by effectively combining facial
landmark and image features through two-stream pyramid cross-fusion design.
However, the architecture of POSTER V1 is undoubtedly complex. It causes
expensive computational costs. In order to relieve the computational pressure
of POSTER V1, in this paper, we propose POSTER V2. It improves POSTER V1 in
three directions: cross-fusion, two-stream, and multi-scale feature extraction.
In cross-fusion, we use window-based cross-attention mechanism replacing
vanilla cross-attention mechanism. We remove the image-to-landmark branch in
the two-stream design. For multi-scale feature extraction, POSTER V2 combines
images with landmark's multi-scale features to replace POSTER V1's pyramid
design. Extensive experiments on several standard datasets show that our POSTER
V2 achieves the SOTA FER performance with the minimum computational cost. For
example, POSTER V2 reached 92.21\% on RAF-DB, 67.49\% on AffectNet (7 cls) and
63.77\% on AffectNet (8 cls), respectively, using only 8.4G floating point
operations (FLOPs) and 43.7M parameters (Param). This demonstrates the
effectiveness of our improvements. The code and models are available at
~\url{https://github.com/Talented-Q/POSTER_V2}.
- Abstract(参考訳): 表情認識(fer)は、人間とコンピュータの相互作用など、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
POSTER V1は、顔のランドマークと画像の特徴を2ストリームのピラミッドクロスフュージョン設計で効果的に組み合わせることで、FERの最先端(SOTA)性能を実現する。
しかし、POSTER V1のアーキテクチャは間違いなく複雑である。
それは高価な計算コストを引き起こす。
本稿では,POSTER V1の計算圧力を軽減するために,POSTER V2を提案する。
POSTER V1は、クロスフュージョン、2ストリーム、マルチスケールの特徴抽出の3方向に改善されている。
クロスフュージョンでは,バニラクロスアテンション機構に代わるウィンドウベースのクロスアテンション機構を用いる。
2ストリーム設計における画像とランドマークの分岐を除去する。
マルチスケールの特徴抽出のために、POSTER V2は画像とランドマークのマルチスケール機能を組み合わせて、POSTER V1のピラミッド設計を置き換える。
いくつかの標準データセットに対する大規模な実験は、POSTER V2が最小計算コストでSOTA FER性能を達成することを示している。
例えば、POSTER V2はRAF-DBで92.21\%、AffectNetで67.49\%、AffectNetで63.77\%に達し、8.4G浮動小数点演算(FLOP)と43.7Mパラメータ(Param)のみを使用した。
これは我々の改善の有効性を示している。
コードとモデルは ~\url{https://github.com/Talented-Q/POSTER_V2} で入手できる。
関連論文リスト
- Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task [42.422925759342874]
本稿では,グローバルな視覚情報を効率的にモデル化するためのPT-DiT(Proxy-Tokenized Diffusion Transformer)を提案する。
各トランスブロック内で、各時空間ウィンドウから平均化トークンを計算し、その領域のプロキシトークンとして機能する。
また,スパースアテンション機構によって引き起こされる詳細モデリングの限界に対処するために,ウィンドウとシフトウインドウのアテンションを導入する。
論文 参考訳(メタデータ) (2024-09-06T03:13:45Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - ROI-Aware Multiscale Cross-Attention Vision Transformer for Pest Image
Identification [1.9580473532948401]
我々は、新しいROI対応マルチスケール・クロスアテンション・ビジョン・トランス (ROI-ViT) を提案する。
提案したROI-ViTは、PestとROIブランチと呼ばれる2つのブランチを使って設計されている。
実験の結果、提案されたROI-ViTはそれぞれIP102、D0、SauTegの害虫データセットに対して81.81%、99.64%、84.66%を達成した。
論文 参考訳(メタデータ) (2023-12-28T09:16:27Z) - MixVPR: Feature Mixing for Visual Place Recognition [3.6739949215165164]
視覚的場所認識(VPR)は、モバイルロボティクスと自律運転の重要な部分である。
我々は,事前学習したバックボーンから特徴マップをグローバルな特徴の集合として取り出す,新しい総合的特徴集約技術であるMixVPRを紹介する。
複数の大規模ベンチマークで広範な実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-03T19:24:03Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression
Recognition [11.525573321175925]
顔の表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、教育、医療、オンラインモニタリングといった分野に実践的な応用がある。
特に大きな問題は、クラス間類似性、クラス内類似性、スケール感度の3つである。
本稿では,これら3つの問題を総括的に解決することを目的とした2ストリームのピラミッド crOss-fuSion TransformER ネットワーク (POSTER) を提案する。
論文 参考訳(メタデータ) (2022-04-08T14:01:41Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。