論文の概要: Enhancing General Face Forgery Detection via Vision Transformer with
Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2303.00917v1
- Date: Thu, 2 Mar 2023 02:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:18:21.245050
- Title: Enhancing General Face Forgery Detection via Vision Transformer with
Low-Rank Adaptation
- Title(参考訳): 低ランク適応型視覚トランスフォーマによる顔偽造検出の高速化
- Authors: Chenqi Kong, Haoliang Li, Shiqi Wang
- Abstract要約: 偽造の顔は 偽ニュースや 詐欺 偽造などの セキュリティ上の懸念を訴える
本稿では、視覚変換器(ViT)アーキテクチャに基づく、より一般的な偽顔検出モデルを設計する。
提案手法は, クロスマニピュレーションとクロスデータセット評価の両方において, 最先端検出性能を実現する。
- 参考スコア(独自算出の注目度): 31.780516471483985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, forgery faces pose pressing security concerns over fake news,
fraud, impersonation, etc. Despite the demonstrated success in intra-domain
face forgery detection, existing detection methods lack generalization
capability and tend to suffer from dramatic performance drops when deployed to
unforeseen domains. To mitigate this issue, this paper designs a more general
fake face detection model based on the vision transformer(ViT) architecture. In
the training phase, the pretrained ViT weights are freezed, and only the
Low-Rank Adaptation(LoRA) modules are updated. Additionally, the Single Center
Loss(SCL) is applied to supervise the training process, further improving the
generalization capability of the model. The proposed method achieves
state-of-the-arts detection performances in both cross-manipulation and
cross-dataset evaluations.
- Abstract(参考訳): 今日では、偽ニュース、詐欺、偽造などに対するセキュリティ上の懸念が強まっている。
ドメイン内フェイス偽造検出の成功が実証されたにもかかわらず、既存の検出方法は一般化能力がなく、予期せぬドメインにデプロイすると劇的なパフォーマンス低下に苦しむ傾向がある。
この問題を軽減するために,視覚変換器(ViT)アーキテクチャに基づくより一般的な偽顔検出モデルを設計する。
訓練段階では、プリトレーニングされたvit重みが凍結され、低ランク適応(lora)モジュールのみが更新される。
さらに、SCL(Single Center Loss)をトレーニングプロセスの監視に適用し、モデルの一般化能力をさらに向上させる。
提案手法は,クロスマニピュレーションとクロスデータセット評価の両方において,最先端検出性能を実現する。
関連論文リスト
- Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with
Statistical Tokens [47.32696950968665]
Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
論文 参考訳(メタデータ) (2023-09-07T22:36:22Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Self-Supervised Graph Transformer for Deepfake Detection [1.8133635752982105]
ディープフェイク検出手法は、与えられたデータセット内の偽造を認識できる有望な結果を示している。
ディープフェイク検出システムは、一般的な検出性能を保証するために、偽造タイプ、外観、品質に欠かせないままでいなければならない。
本研究では、自己教師付き事前学習モデルを利用して、例外的な一般化能力を実現するディープフェイク検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-27T17:22:41Z) - Robust face anti-spoofing framework with Convolutional Vision
Transformer [1.7596501992526474]
本研究では、様々な未確認領域データに対して堅牢な性能を実現する畳み込み型視覚変換器に基づくフレームワークを提案する。
また、ドメイン一般化のための他の9つのベンチマークモデルよりも、クロスデータセット設定のサブプロトコールにおける最も高い平均ランクを示す。
論文 参考訳(メタデータ) (2023-07-24T00:03:09Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Dual Progressive Transformations for Weakly Supervised Semantic
Segmentation [23.68115323096787]
弱教師付きセマンティックセグメンテーション(WSSS)はコンピュータビジョンにおいて難しい課題である。
グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングするための畳み込みニューラルネットワーク精製変換器(CRT)を提案する。
提案したCRTは、弱教師付きセマンティックセグメンテーションタスクの両方において、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-30T03:42:52Z) - Test-time Adaptation with Slot-Centric Models [63.981055778098444]
Slot-TTAは、半教師付きシーン分解モデルであり、シーンごとのテスト時間は、再構成やクロスビュー合成の目的に対する勾配降下を通じて適用される。
我々は、最先端の監視フィードフォワード検出器と代替テスト時間適応法に対して、配電性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-03-21T17:59:50Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - On the Effectiveness of Vision Transformers for Zero-shot Face
Anti-Spoofing [7.665392786787577]
本研究では、ゼロショットアンチスプーフィングタスクにおいて、視覚変換器モデルからの伝達学習を用いる。
提案手法は、HQ-WMCAおよびSiW-Mデータセットにおけるゼロショットプロトコルにおける最先端の手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-11-16T15:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。