論文の概要: TransFER: Learning Relation-aware Facial Expression Representations with
Transformers
- arxiv url: http://arxiv.org/abs/2108.11116v1
- Date: Wed, 25 Aug 2021 08:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 17:05:50.085711
- Title: TransFER: Learning Relation-aware Facial Expression Representations with
Transformers
- Title(参考訳): transfer:学習関係-トランスフォーマーによる表情表現の認識
- Authors: Fanglei Xue, Qiangchang Wang, Guodong Guo
- Abstract要約: そこで我々は,リッチリレーショナル・アウェアな局所表現を学習可能なTransFERモデルを提案する。
主にMulti-Attention Dropping (MAD)、ViT-FER、Multi-head Self-Attention Dropping (MSAD)の3つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 28.168810464145313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial expression recognition (FER) has received increasing interest in
computer vision. We propose the TransFER model which can learn rich
relation-aware local representations. It mainly consists of three components:
Multi-Attention Dropping (MAD), ViT-FER, and Multi-head Self-Attention Dropping
(MSAD). First, local patches play an important role in distinguishing various
expressions, however, few existing works can locate discriminative and diverse
local patches. This can cause serious problems when some patches are invisible
due to pose variations or viewpoint changes. To address this issue, the MAD is
proposed to randomly drop an attention map. Consequently, models are pushed to
explore diverse local patches adaptively. Second, to build rich relations
between different local patches, the Vision Transformers (ViT) are used in FER,
called ViT-FER. Since the global scope is used to reinforce each local patch, a
better representation is obtained to boost the FER performance. Thirdly, the
multi-head self-attention allows ViT to jointly attend to features from
different information subspaces at different positions. Given no explicit
guidance, however, multiple self-attentions may extract similar relations. To
address this, the MSAD is proposed to randomly drop one self-attention module.
As a result, models are forced to learn rich relations among diverse local
patches. Our proposed TransFER model outperforms the state-of-the-art methods
on several FER benchmarks, showing its effectiveness and usefulness.
- Abstract(参考訳): 表情認識(FER)はコンピュータビジョンへの関心が高まっている。
豊かな関係を認識できる局所表現を学習できる転送モデルを提案する。
主にMulti-Attention Dropping (MAD)、ViT-FER、Multi-head Self-Attention Dropping (MSAD)の3つのコンポーネントで構成されている。
第一に、ローカルパッチは様々な表現を識別する上で重要な役割を果たすが、既存の作品では識別的かつ多様なローカルパッチを見つけることができない。
これは、いくつかのパッチがバリエーションや視点の変化のために見えない場合に深刻な問題を引き起こす可能性がある。
この問題に対処するため,MADはランダムにアテンションマップをドロップする。
その結果、モデルは適応的に多様な局所パッチを探索するようにプッシュされる。
第二に、異なるローカルパッチ間のリッチな関係を構築するために、ViT-FERと呼ばれるFERでViT変換器(ViT)が使用される。
グローバルスコープは各ローカルパッチの強化に使用されるため、FER性能を高めるためにより良い表現が得られる。
第3に、マルチヘッドの自己注意により、ViTは異なる位置の異なる情報サブスペースから特徴に共同で参加することができる。
しかし、明示的な指導が与えられなければ、複数の自己注意が類似した関係を抽出できる。
これを解決するため、MSADは1つの自己注意モジュールをランダムにドロップするよう提案されている。
その結果、さまざまなローカルパッチ間の豊富な関係を学習せざるを得なくなる。
提案するTransFERモデルは,複数のFERベンチマークにおいて最先端の手法よりも優れ,その有効性と有用性を示す。
関連論文リスト
- Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification [11.664820595258988]
可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。
既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。
クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
論文 参考訳(メタデータ) (2024-09-09T14:12:23Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - M2Former: Multi-Scale Patch Selection for Fine-Grained Visual
Recognition [4.621578854541836]
既存のViTモデルにおけるマルチスケール機能を改善するために,マルチスケールパッチ選択(MSPS)を提案する。
具体的には、MSPSは視覚変換器(MS-ViT)の異なる段階で異なるスケールの正解パッチを選択する。
さらに、クラストークン転送(CTT)とマルチスケールクロスアテンション(MSCA)を導入し、選択したマルチスケールパッチ間のクロススケールインタラクションをモデル化し、モデル決定でそれらを完全に反映する。
論文 参考訳(メタデータ) (2023-08-04T06:41:35Z) - Siamese DETR [87.45960774877798]
本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR を提案する。
我々は2つの相補的なタスクを通して、ビュー不変と検出指向の表現を同時に学習することを検討する。
提案したSiamese DETRはCOCOおよびPASCALVOC検出における最先端の転送性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T15:29:25Z) - FER-former: Multi-modal Transformer for Facial Expression Recognition [14.219492977523682]
本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-23T02:29:53Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。