論文の概要: FER-former: Multi-modal Transformer for Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2303.12997v1
- Date: Thu, 23 Mar 2023 02:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 16:00:55.269999
- Title: FER-former: Multi-modal Transformer for Facial Expression Recognition
- Title(参考訳): FER-former:表情認識のためのマルチモーダルトランス
- Authors: Yande Li, Mingjie Wang, Minglun Gong, Yonggang Lu, Li Liu
- Abstract要約: 本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
- 参考スコア(独自算出の注目度): 14.219492977523682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ever-increasing demands for intuitive interactions in Virtual Reality has
triggered a boom in the realm of Facial Expression Recognition (FER). To
address the limitations in existing approaches (e.g., narrow receptive fields
and homogenous supervisory signals) and further cement the capacity of FER
tools, a novel multifarious supervision-steering Transformer for FER in the
wild is proposed in this paper. Referred as FER-former, our approach features
multi-granularity embedding integration, hybrid self-attention scheme, and
heterogeneous domain-steering supervision. In specific, to dig deep into the
merits of the combination of features provided by prevailing CNNs and
Transformers, a hybrid stem is designed to cascade two types of learning
paradigms simultaneously. Wherein, a FER-specific transformer mechanism is
devised to characterize conventional hard one-hot label-focusing and CLIP-based
text-oriented tokens in parallel for final classification. To ease the issue of
annotation ambiguity, a heterogeneous domains-steering supervision module is
proposed to make image features also have text-space semantic correlations by
supervising the similarity between image features and text features. On top of
the collaboration of multifarious token heads, diverse global receptive fields
with multi-modal semantic cues are captured, thereby delivering superb learning
capability. Extensive experiments on popular benchmarks demonstrate the
superiority of the proposed FER-former over the existing state-of-the-arts.
- Abstract(参考訳): バーチャルリアリティーにおける直感的な相互作用に対する需要は、顔の表情認識(FER)の領域でブームを引き起こしている。
本論文では、既存のアプローチ(例えば、狭い受容場と均質な監視信号)の限界に対処し、FERツールの能力をさらに強化するために、野生におけるFERのための新しい多孔性監視ステアリングトランスを提案する。
fer-former と呼ばれるこのアプローチは,マルチグラニュラリティ埋め込み統合,ハイブリッドセルフアテンションスキーム,ヘテロジニアスなドメインステアリング監督を特徴とする。
具体的には、cnnとトランスフォーマーが提供する機能の組み合わせの利点を深く掘り下げるために、ハイブリッドstemは2つのタイプの学習パラダイムを同時にカスケードするように設計されている。
一方、FER固有のトランスフォーマー機構は、最終分類のために従来のハードワンホットラベルフォーカスとCLIPベースのテキスト指向トークンを並列に特徴付けるために考案されている。
アノテーションの曖昧さの問題を緩和するため,画像特徴とテキスト特徴の類似性を監督することにより,画像特徴がテキスト空間意味相関を持つように,異種ドメインステアリング監督モジュールを提案する。
マルチファーラストークンヘッドのコラボレーションに加えて、多モーダルなセマンティックキューを備えた多様なグローバルな受容フィールドをキャプチャして、スーパーブラーニング能力を提供する。
人気のあるベンチマークに関する広範囲な実験は、既存の最新技術よりもfer-formerの方が優れていることを示している。
関連論文リスト
- Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer [29.95553680263075]
本稿では,複数の受容場と異なる特徴を適応的に整合する検出不要な手法であるFMRTを提案する。
FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-10-20T15:54:18Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Flat Multi-modal Interaction Transformer for Named Entity Recognition [1.7605709999848573]
マルチモーダルなエンティティ認識(MNER)は、画像の助けを借りたソーシャルメディア投稿におけるエンティティスパンの識別とカテゴリの認識を目的としている。
MNERのためのフラットマルチモーダル・インタラクション・トランス (FMIT) を提案する。
本研究では,視覚とテキストの微粒な意味表現を統一格子構造に変換し,トランスフォーマーの異なるモダリティに対応するために,新しい相対的位置符号化を設計する。
論文 参考訳(メタデータ) (2022-08-23T15:25:44Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。