論文の概要: CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection
- arxiv url: http://arxiv.org/abs/2402.12927v1
- Date: Tue, 20 Feb 2024 11:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:43:38.631908
- Title: CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection
- Title(参考訳): clipping the deception: 普遍的ディープフェイク検出のための視覚言語モデルの適用
- Authors: Sohail Ahmed Khan and Duc-Tien Dang-Nguyen
- Abstract要約: 広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。
ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。
シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
- 参考スコア(独自算出の注目度): 3.849401956130233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancements in Generative Adversarial Networks (GANs) and the
emergence of Diffusion models have significantly streamlined the production of
highly realistic and widely accessible synthetic content. As a result, there is
a pressing need for effective general purpose detection mechanisms to mitigate
the potential risks posed by deepfakes. In this paper, we explore the
effectiveness of pre-trained vision-language models (VLMs) when paired with
recent adaptation methods for universal deepfake detection. Following previous
studies in this domain, we employ only a single dataset (ProGAN) in order to
adapt CLIP for deepfake detection. However, in contrast to prior research,
which rely solely on the visual part of CLIP while ignoring its textual
component, our analysis reveals that retaining the text part is crucial.
Consequently, the simple and lightweight Prompt Tuning based adaptation
strategy that we employ outperforms the previous SOTA approach by 5.01% mAP and
6.61% accuracy while utilizing less than one third of the training data (200k
images as compared to 720k). To assess the real-world applicability of our
proposed models, we conduct a comprehensive evaluation across various
scenarios. This involves rigorous testing on images sourced from 21 distinct
datasets, including those generated by GANs-based, Diffusion-based and
Commercial tools.
- Abstract(参考訳): GAN(Generative Adversarial Networks)の最近の進歩と拡散モデルの出現は、非常に現実的で広くアクセス可能な合成コンテンツの生産を著しく合理化している。
その結果,ディープフェイクによる潜在的なリスクを軽減するため,効果的な汎用的検出機構の必要性が高まった。
本稿では,従来の視覚言語モデル(VLM)と直近の適応手法の併用による全深度検出の有効性について検討する。
この領域での以前の研究に続いて、深度検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを用いる。
しかし,テキスト成分を無視しながらクリップの視覚的部分のみに依存する先行研究とは対照的に,テキスト部分の保持が重要であることが明らかとなった。
その結果,従来のSOTAアプローチを5.01% mAP,6.61%精度で上回り,トレーニングデータの3分の1未満(720kと比較すると200k画像)を生かした,シンプルで軽量なPrompt Tuningベースの適応戦略が得られた。
提案するモデルの現実的な適用性を評価するため,様々なシナリオを包括的に評価する。
これには、GANsベースのDiffusionベースのツールやCommercialツールなど、21の異なるデータセットから生成されたイメージに対する厳格なテストが含まれる。
関連論文リスト
- Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - DFIL: Deepfake Incremental Learning by Exploiting Domain-invariant
Forgery Clues [32.045504965382015]
現在のディープフェイク検出モデルは、大規模なデータセットでトレーニングすることで、一般的に偽画像を認識することができる。
検出モデルの精度は、データ分布の違いにより、新しいディープフェイク法によって生成された画像に対して著しく低下する。
本稿では,ディープフェイク検出モデルの一般化を改善するための新たなインクリメンタルラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T07:02:26Z) - Quality-Agnostic Deepfake Detection with Intra-model Collaborative
Learning [26.517887637150594]
Deepfakeは最近、セキュリティ上の脅威と偽情報の拡散に関して、多くの社会的懸念を提起した。
多くのSOTAアプローチは、特定のディープフェイクビデオ品質タイプを検出するために単一の特定モデルを使用することによって制限される。
本研究では,異なる品質のディープフェイクを効果的かつ同時検出できる汎用的なモデル内協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-12T02:01:31Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。