論文の概要: Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2302.05744v1
- Date: Sat, 11 Feb 2023 17:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:53:04.050848
- Title: Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing
- Title(参考訳): マルチモーダル面スプーフィングにおける視覚トランスフォーマーとマスクオートエンコーダの再考
- Authors: Zitong Yu, Rizhao Cai, Yawen Cui, Xin Liu, Yongjian Hu, Alex Kot
- Abstract要約: RGB、赤外線(IR)、深度によるマルチモーダルFASのためのViTにおける3つの重要な要素(入力、事前学習、微調整)について検討した。
マルチモーダルFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$2$A$2$E) を提案する。
- 参考スコア(独自算出の注目度): 19.142582966452935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision transformer (ViT) based multimodal learning methods have
been proposed to improve the robustness of face anti-spoofing (FAS) systems.
However, there are still no works to explore the fundamental natures
(\textit{e.g.}, modality-aware inputs, suitable multimodal pre-training, and
efficient finetuning) in vanilla ViT for multimodal FAS. In this paper, we
investigate three key factors (i.e., inputs, pre-training, and finetuning) in
ViT for multimodal FAS with RGB, Infrared (IR), and Depth. First, in terms of
the ViT inputs, we find that leveraging local feature descriptors benefits the
ViT on IR modality but not RGB or Depth modalities. Second, in observation of
the inefficiency on direct finetuning the whole or partial ViT, we design an
adaptive multimodal adapter (AMA), which can efficiently aggregate local
multimodal features while freezing majority of ViT parameters. Finally, in
consideration of the task (FAS vs. generic object classification) and modality
(multimodal vs. unimodal) gaps, ImageNet pre-trained models might be
sub-optimal for the multimodal FAS task. To bridge these gaps, we propose the
modality-asymmetric masked autoencoder (M$^{2}$A$^{2}$E) for multimodal FAS
self-supervised pre-training without costly annotated labels. Compared with the
previous modality-symmetric autoencoder, the proposed M$^{2}$A$^{2}$E is able
to learn more intrinsic task-aware representation and compatible with
modality-agnostic (e.g., unimodal, bimodal, and trimodal) downstream settings.
Extensive experiments with both unimodal (RGB, Depth, IR) and multimodal
(RGB+Depth, RGB+IR, Depth+IR, RGB+Depth+IR) settings conducted on multimodal
FAS benchmarks demonstrate the superior performance of the proposed methods. We
hope these findings and solutions can facilitate the future research for
ViT-based multimodal FAS.
- Abstract(参考訳): 近年,face anti-spoofing (fas) システムのロバスト性を改善するために視覚トランスフォーマー (vit) を用いたマルチモーダル学習法が提案されている。
しかしながら、バニラ ViT の基本的な性質 (\textit{e.g.}, modality-aware inputs, suitable multimodal pre-training, and efficient finetuning) をマルチモーダル FAS に対して探索する作業は未だ存在しない。
本稿では,vitにおけるrgb,赤外線(ir),奥行きを持つマルチモーダルfasの入力,事前学習,微調整の3つの重要な要因について検討する。
まず、VT入力の点から、局所的な特徴記述子を活用することで、RGBやDepthモダリティではなく、IRモダリティでVTを活用できることが分かる。
次に,VTパラメータの大部分を凍結しながら,局所的なマルチモーダル特徴を効率的に集約する適応型マルチモーダルアダプタ (AMA) を設計した。
最後に、タスク(FAS対ジェネリックオブジェクト分類)とモダリティ(マルチモーダル対アンモダル)のギャップを考慮すると、ImageNet事前学習モデルはマルチモーダルFASタスクに準最適かもしれない。
これらのギャップを埋めるために,多モードFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$^{2}$A$^{2}$E) を提案する。
従来のモダリティ対称オートエンコーダと比較して、提案されたM$^{2}$A$^{2}$Eは、より本質的なタスク認識表現を学習することができ、モダリティ非依存(例えば、unimodal、bimodal、trimodal)の下流設定と互換性がある。
マルチモーダルFASベンチマークで実施したユニモーダル(RGB,Depth,IR)とマルチモーダル(RGB+Depth,RGB+IR,Depth+IR,RGB+Depth+IR)の併用実験により,提案手法の優れた性能を示した。
これらの発見と解決策が、ViTベースのマルチモーダルFASの今後の研究を促進することを願っている。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Flexible-Modal Face Anti-Spoofing: A Benchmark [66.18359076810549]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
第一のフレキシブル・モーダルなFASベンチマークを原則として確立しました。
また、フレキシブルモーダルFASのための一般的な深層モデルと特徴融合戦略についても検討する。
論文 参考訳(メタデータ) (2022-02-16T16:55:39Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。