論文の概要: TransFER: Learning Relation-aware Facial Expression Representations with
Transformers
- arxiv url: http://arxiv.org/abs/2108.11116v1
- Date: Wed, 25 Aug 2021 08:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 17:05:50.085711
- Title: TransFER: Learning Relation-aware Facial Expression Representations with
Transformers
- Title(参考訳): transfer:学習関係-トランスフォーマーによる表情表現の認識
- Authors: Fanglei Xue, Qiangchang Wang, Guodong Guo
- Abstract要約: そこで我々は,リッチリレーショナル・アウェアな局所表現を学習可能なTransFERモデルを提案する。
主にMulti-Attention Dropping (MAD)、ViT-FER、Multi-head Self-Attention Dropping (MSAD)の3つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 28.168810464145313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial expression recognition (FER) has received increasing interest in
computer vision. We propose the TransFER model which can learn rich
relation-aware local representations. It mainly consists of three components:
Multi-Attention Dropping (MAD), ViT-FER, and Multi-head Self-Attention Dropping
(MSAD). First, local patches play an important role in distinguishing various
expressions, however, few existing works can locate discriminative and diverse
local patches. This can cause serious problems when some patches are invisible
due to pose variations or viewpoint changes. To address this issue, the MAD is
proposed to randomly drop an attention map. Consequently, models are pushed to
explore diverse local patches adaptively. Second, to build rich relations
between different local patches, the Vision Transformers (ViT) are used in FER,
called ViT-FER. Since the global scope is used to reinforce each local patch, a
better representation is obtained to boost the FER performance. Thirdly, the
multi-head self-attention allows ViT to jointly attend to features from
different information subspaces at different positions. Given no explicit
guidance, however, multiple self-attentions may extract similar relations. To
address this, the MSAD is proposed to randomly drop one self-attention module.
As a result, models are forced to learn rich relations among diverse local
patches. Our proposed TransFER model outperforms the state-of-the-art methods
on several FER benchmarks, showing its effectiveness and usefulness.
- Abstract(参考訳): 表情認識(FER)はコンピュータビジョンへの関心が高まっている。
豊かな関係を認識できる局所表現を学習できる転送モデルを提案する。
主にMulti-Attention Dropping (MAD)、ViT-FER、Multi-head Self-Attention Dropping (MSAD)の3つのコンポーネントで構成されている。
第一に、ローカルパッチは様々な表現を識別する上で重要な役割を果たすが、既存の作品では識別的かつ多様なローカルパッチを見つけることができない。
これは、いくつかのパッチがバリエーションや視点の変化のために見えない場合に深刻な問題を引き起こす可能性がある。
この問題に対処するため,MADはランダムにアテンションマップをドロップする。
その結果、モデルは適応的に多様な局所パッチを探索するようにプッシュされる。
第二に、異なるローカルパッチ間のリッチな関係を構築するために、ViT-FERと呼ばれるFERでViT変換器(ViT)が使用される。
グローバルスコープは各ローカルパッチの強化に使用されるため、FER性能を高めるためにより良い表現が得られる。
第3に、マルチヘッドの自己注意により、ViTは異なる位置の異なる情報サブスペースから特徴に共同で参加することができる。
しかし、明示的な指導が与えられなければ、複数の自己注意が類似した関係を抽出できる。
これを解決するため、MSADは1つの自己注意モジュールをランダムにドロップするよう提案されている。
その結果、さまざまなローカルパッチ間の豊富な関係を学習せざるを得なくなる。
提案するTransFERモデルは,複数のFERベンチマークにおいて最先端の手法よりも優れ,その有効性と有用性を示す。
関連論文リスト
- DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - M2Former: Multi-Scale Patch Selection for Fine-Grained Visual
Recognition [4.621578854541836]
既存のViTモデルにおけるマルチスケール機能を改善するために,マルチスケールパッチ選択(MSPS)を提案する。
具体的には、MSPSは視覚変換器(MS-ViT)の異なる段階で異なるスケールの正解パッチを選択する。
さらに、クラストークン転送(CTT)とマルチスケールクロスアテンション(MSCA)を導入し、選択したマルチスケールパッチ間のクロススケールインタラクションをモデル化し、モデル決定でそれらを完全に反映する。
論文 参考訳(メタデータ) (2023-08-04T06:41:35Z) - Siamese DETR [87.45960774877798]
本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR を提案する。
我々は2つの相補的なタスクを通して、ビュー不変と検出指向の表現を同時に学習することを検討する。
提案したSiamese DETRはCOCOおよびPASCALVOC検出における最先端の転送性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T15:29:25Z) - FER-former: Multi-modal Transformer for Facial Expression Recognition [14.219492977523682]
本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-23T02:29:53Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。