論文の概要: MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for
Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2401.07245v1
- Date: Sun, 14 Jan 2024 10:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:08:06.825785
- Title: MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for
Facial Expression Recognition
- Title(参考訳): 表情認識のためのミックスコントラスト微調整によるマスク画像事前学習
- Authors: Fan Zhang, Xiaobao Guo, Xiaojiang Peng, Alex Kot
- Abstract要約: Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。
初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。
微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
- 参考スコア(独自算出の注目度): 11.820043444385432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cutting-edge research in facial expression recognition (FER) currently favors
the utilization of convolutional neural networks (CNNs) backbone which is
supervisedly pre-trained on face recognition datasets for feature extraction.
However, due to the vast scale of face recognition datasets and the high cost
associated with collecting facial labels, this pre-training paradigm incurs
significant expenses. Towards this end, we propose to pre-train vision
Transformers (ViTs) through a self-supervised approach on a mid-scale general
image dataset. In addition, when compared with the domain disparity existing
between face datasets and FER datasets, the divergence between general datasets
and FER datasets is more pronounced. Therefore, we propose a contrastive
fine-tuning approach to effectively mitigate this domain disparity.
Specifically, we introduce a novel FER training paradigm named Mask Image
pre-training with MIx Contrastive fine-tuning (MIMIC). In the initial phase, we
pre-train the ViT via masked image reconstruction on general images.
Subsequently, in the fine-tuning stage, we introduce a mix-supervised
contrastive learning process, which enhances the model with a more extensive
range of positive samples by the mixing strategy. Through extensive experiments
conducted on three benchmark datasets, we demonstrate that our MIMIC
outperforms the previous training paradigm, showing its capability to learn
better representations. Remarkably, the results indicate that the vanilla ViT
can achieve impressive performance without the need for intricate,
auxiliary-designed modules. Moreover, when scaling up the model size, MIMIC
exhibits no performance saturation and is superior to the current
state-of-the-art methods.
- Abstract(参考訳): 現在、顔認識(fer)における最先端の研究は、特徴抽出のために顔認識データセット上で教師ありに事前学習される畳み込みニューラルネットワーク(cnns)バックボーンの利用を好んでいる。
しかし、膨大な顔認識データセットと、顔ラベルの収集に関連する高いコストのため、この事前学習パラダイムにはかなりの費用がかかる。
この目的に向けて,中規模汎用画像データセット上での自己教師付きアプローチによる視覚トランスフォーマー(vits)の事前学習を提案する。
さらに、顔データセットとFERデータセットの間に存在するドメイン格差と比較すると、一般的なデータセットとFERデータセットとのばらつきはより顕著である。
そこで本研究では,この領域の差異を効果的に緩和するための対比的微調整手法を提案する。
具体的には,Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを提案する。
初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。
その後, 微調整段階において, 混合教師付きコントラスト学習プロセスを導入し, 混合戦略によりより広範囲の正のサンプルでモデルを強化した。
3つのベンチマークデータセットで実施された広範な実験を通じて、MIMICは以前のトレーニングパラダイムよりも優れており、より良い表現を学ぶ能力を示している。
注目すべきは、バニラ ViT が複雑な補助設計モジュールを必要とせずに素晴らしい性能を達成できることである。
さらに、モデルサイズをスケールアップする場合、MIMICは性能飽和がなく、現在の最先端手法よりも優れている。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image
Segmentation [37.465246717967595]
本稿では,医療画像のセグメンテーション作業の効率化を目的として,FreMIMというMIMベースの新しいフレームワークを提案する。
FreMIMは一貫してモデルパフォーマンスに大幅な改善をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-04-21T10:23:34Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Mean Embeddings with Test-Time Data Augmentation for Ensembling of
Representations [8.336315962271396]
表現のアンサンブルを考察し、MeTTA(Test-time augmentation)を用いた平均埋め込みを提案する。
MeTTAは、教師付きモデルと自己教師付きモデルの両方において、ImageNetの線形評価の質を大幅に向上させる。
我々は、より高品質な表現を推論するためにアンサンブルの成功を広めることが、多くの新しいアンサンブルアプリケーションを開く重要なステップであると信じている。
論文 参考訳(メタデータ) (2021-06-15T10:49:46Z) - Ear2Face: Deep Biometric Modality Mapping [9.560980936110234]
生体情報間のマッピングを学習するエンド・ツー・エンドのディープニューラルネットワークモデルを提案する。
この問題を画像と画像のペア変換タスクとして定式化し、耳と顔のペアのデータセットを収集した。
我々は、特にFERETデータセットにおいて、耳画像入力から視覚的に魅力的な顔画像を生成する、非常に有望な結果を得た。
論文 参考訳(メタデータ) (2020-06-02T21:14:27Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。