論文の概要: Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2302.05744v1
- Date: Sat, 11 Feb 2023 17:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:53:04.050848
- Title: Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing
- Title(参考訳): マルチモーダル面スプーフィングにおける視覚トランスフォーマーとマスクオートエンコーダの再考
- Authors: Zitong Yu, Rizhao Cai, Yawen Cui, Xin Liu, Yongjian Hu, Alex Kot
- Abstract要約: RGB、赤外線(IR)、深度によるマルチモーダルFASのためのViTにおける3つの重要な要素(入力、事前学習、微調整)について検討した。
マルチモーダルFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$2$A$2$E) を提案する。
- 参考スコア(独自算出の注目度): 19.142582966452935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision transformer (ViT) based multimodal learning methods have
been proposed to improve the robustness of face anti-spoofing (FAS) systems.
However, there are still no works to explore the fundamental natures
(\textit{e.g.}, modality-aware inputs, suitable multimodal pre-training, and
efficient finetuning) in vanilla ViT for multimodal FAS. In this paper, we
investigate three key factors (i.e., inputs, pre-training, and finetuning) in
ViT for multimodal FAS with RGB, Infrared (IR), and Depth. First, in terms of
the ViT inputs, we find that leveraging local feature descriptors benefits the
ViT on IR modality but not RGB or Depth modalities. Second, in observation of
the inefficiency on direct finetuning the whole or partial ViT, we design an
adaptive multimodal adapter (AMA), which can efficiently aggregate local
multimodal features while freezing majority of ViT parameters. Finally, in
consideration of the task (FAS vs. generic object classification) and modality
(multimodal vs. unimodal) gaps, ImageNet pre-trained models might be
sub-optimal for the multimodal FAS task. To bridge these gaps, we propose the
modality-asymmetric masked autoencoder (M$^{2}$A$^{2}$E) for multimodal FAS
self-supervised pre-training without costly annotated labels. Compared with the
previous modality-symmetric autoencoder, the proposed M$^{2}$A$^{2}$E is able
to learn more intrinsic task-aware representation and compatible with
modality-agnostic (e.g., unimodal, bimodal, and trimodal) downstream settings.
Extensive experiments with both unimodal (RGB, Depth, IR) and multimodal
(RGB+Depth, RGB+IR, Depth+IR, RGB+Depth+IR) settings conducted on multimodal
FAS benchmarks demonstrate the superior performance of the proposed methods. We
hope these findings and solutions can facilitate the future research for
ViT-based multimodal FAS.
- Abstract(参考訳): 近年,face anti-spoofing (fas) システムのロバスト性を改善するために視覚トランスフォーマー (vit) を用いたマルチモーダル学習法が提案されている。
しかしながら、バニラ ViT の基本的な性質 (\textit{e.g.}, modality-aware inputs, suitable multimodal pre-training, and efficient finetuning) をマルチモーダル FAS に対して探索する作業は未だ存在しない。
本稿では,vitにおけるrgb,赤外線(ir),奥行きを持つマルチモーダルfasの入力,事前学習,微調整の3つの重要な要因について検討する。
まず、VT入力の点から、局所的な特徴記述子を活用することで、RGBやDepthモダリティではなく、IRモダリティでVTを活用できることが分かる。
次に,VTパラメータの大部分を凍結しながら,局所的なマルチモーダル特徴を効率的に集約する適応型マルチモーダルアダプタ (AMA) を設計した。
最後に、タスク(FAS対ジェネリックオブジェクト分類)とモダリティ(マルチモーダル対アンモダル)のギャップを考慮すると、ImageNet事前学習モデルはマルチモーダルFASタスクに準最適かもしれない。
これらのギャップを埋めるために,多モードFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$^{2}$A$^{2}$E) を提案する。
従来のモダリティ対称オートエンコーダと比較して、提案されたM$^{2}$A$^{2}$Eは、より本質的なタスク認識表現を学習することができ、モダリティ非依存(例えば、unimodal、bimodal、trimodal)の下流設定と互換性がある。
マルチモーダルFASベンチマークで実施したユニモーダル(RGB,Depth,IR)とマルチモーダル(RGB+Depth,RGB+IR,Depth+IR,RGB+Depth+IR)の併用実験により,提案手法の優れた性能を示した。
これらの発見と解決策が、ViTベースのマルチモーダルFASの今後の研究を促進することを願っている。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D
Representation for 3D Perception in Autonomous Driving [51.37470133438836]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するために、UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Flexible-Modal Face Anti-Spoofing: A Benchmark [66.18359076810549]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
第一のフレキシブル・モーダルなFASベンチマークを原則として確立しました。
また、フレキシブルモーダルFASのための一般的な深層モデルと特徴融合戦略についても検討する。
論文 参考訳(メタデータ) (2022-02-16T16:55:39Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。