論文の概要: Enhancing Learnable Descriptive Convolutional Vision Transformer for Face Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2503.22936v1
- Date: Sat, 29 Mar 2025 01:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:12.783928
- Title: Enhancing Learnable Descriptive Convolutional Vision Transformer for Face Anti-Spoofing
- Title(参考訳): 顔アンチスプーフィングのための学習可能な記述的畳み込み型視覚変換器の強化
- Authors: Pei-Kai Huanga, Jun-Xiong Chong, Ming-Tsung Hsu, Fang-Yu Hsu, Chiou-Ting Hsu,
- Abstract要約: Face Anti-Spoofing (FAS) は、プレゼンテーション攻撃に対抗するために、ライブ/スプーフ識別機能に大きく依存している。
近年,Learningable Descriptive Convolution を ViT に組み込むための LDCformer を提案している。
本稿では,LCDフォーマのトレーニングを効果的に強化し,特徴量を向上させるための3つの新しいトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 1.8816077341295627
- License:
- Abstract: Face anti-spoofing (FAS) heavily relies on identifying live/spoof discriminative features to counter face presentation attacks. Recently, we proposed LDCformer to successfully incorporate the Learnable Descriptive Convolution (LDC) into ViT, to model long-range dependency of locally descriptive features for FAS. In this paper, we propose three novel training strategies to effectively enhance the training of LDCformer to largely boost its feature characterization capability. The first strategy, dual-attention supervision, is developed to learn fine-grained liveness features guided by regional live/spoof attentions. The second strategy, self-challenging supervision, is designed to enhance the discriminability of the features by generating challenging training data. In addition, we propose a third training strategy, transitional triplet mining strategy, through narrowing the cross-domain gap while maintaining the transitional relationship between live and spoof features, to enlarge the domain-generalization capability of LDCformer. Extensive experiments show that LDCformer under joint supervision of the three novel training strategies outperforms previous methods.
- Abstract(参考訳): Face Anti-Spoofing (FAS) は、顔提示攻撃に対抗するために、ライブ/スプーフ識別機能に大きく依存している。
近年我々は,Learningable Descriptive Convolution (LDC) を ViT に統合し,FAS の局所記述機能の長距離依存性をモデル化する LDCformer を提案している。
本稿では,LDCformerのトレーニングを効果的に強化し,特徴量を大幅に向上させるための3つの新しいトレーニング戦略を提案する。
第1の戦略は、地域住民の注意を喚起した、きめ細かい生活特徴を学習するための二重注意監視である。
第2の戦略は、挑戦的なトレーニングデータを生成することにより、特徴の識別性を高めることを目的としている。
さらに,LCDformerの領域一般化能力を高めるため,生物とスプーフの特徴間の遷移関係を維持しつつ,ドメイン間ギャップを狭めることで,第3のトレーニング戦略であるトランジショナルトリプルトマイニング戦略を提案する。
3つの新しいトレーニング戦略を共同で監督したLCDフォーマーは,従来の方法よりも優れていた。
関連論文リスト
- Retaining and Enhancing Pre-trained Knowledge in Vision-Language Models with Prompt Ensembling [5.6987175375687995]
グループワイド・プロンプト・アンサンブル(GPE)と呼ばれる新しいプロンプト・アンサンブル学習手法を提案する。
提案手法は,データ分散シフトに対するロバスト性を改善しつつ,新たなドメイン知識を取り入れたCLIPのゼロショット機能の向上を目的としている。
当社のアプローチは,ゼロショット能力を保護しながら,CLIPの適応性を最適化するため,マスク付き注意によるグループ化の促進,モデルの表現を損なうことなく,新たなドメインインサイトをシームレスに統合するための補助的なプロンプトの導入,オリジナルと新しい知識を効果的にマージするアンサンブル学習戦略の3つの戦略に基づいている。
論文 参考訳(メタデータ) (2024-12-10T00:40:31Z) - Prompt-Driven Contrastive Learning for Transferable Adversarial Attacks [42.18755809782401]
PDCL-Attackと呼ばれる新しいトランスファー攻撃法を提案する。
テキストのセマンティック表現力を利用して効果的なプロンプト駆動型特徴ガイダンスを定式化する。
論文 参考訳(メタデータ) (2024-07-30T08:52:16Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation [2.2265038612930663]
本稿では,高密度下流タスクに適したボクセルワイド粗い表現を学習するための自己教師型フレームワークについて述べる。
我々は、複数のスケールから機能のコントリビューションのバランスをとるためのトレーニング戦略を考案し、学習された表現が粗い詳細ときめ細かい詳細の両方を捉えることを保証する。
論文 参考訳(メタデータ) (2024-01-12T09:47:17Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - Accelerating Self-Supervised Learning via Efficient Training Strategies [98.26556609110992]
自己監督型ディープネットワークのトレーニング時間は、教師付きディープネットワークよりも桁違いに大きい。
これらの課題に乗じて,近年の自己指導手法の訓練時間を短縮する方法について検討する。
論文 参考訳(メタデータ) (2022-12-11T21:49:39Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。