論文の概要: CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection
- arxiv url: http://arxiv.org/abs/2402.12927v1
- Date: Tue, 20 Feb 2024 11:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:43:38.631908
- Title: CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection
- Title(参考訳): clipping the deception: 普遍的ディープフェイク検出のための視覚言語モデルの適用
- Authors: Sohail Ahmed Khan and Duc-Tien Dang-Nguyen
- Abstract要約: 広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。
ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。
シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
- 参考スコア(独自算出の注目度): 3.849401956130233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancements in Generative Adversarial Networks (GANs) and the
emergence of Diffusion models have significantly streamlined the production of
highly realistic and widely accessible synthetic content. As a result, there is
a pressing need for effective general purpose detection mechanisms to mitigate
the potential risks posed by deepfakes. In this paper, we explore the
effectiveness of pre-trained vision-language models (VLMs) when paired with
recent adaptation methods for universal deepfake detection. Following previous
studies in this domain, we employ only a single dataset (ProGAN) in order to
adapt CLIP for deepfake detection. However, in contrast to prior research,
which rely solely on the visual part of CLIP while ignoring its textual
component, our analysis reveals that retaining the text part is crucial.
Consequently, the simple and lightweight Prompt Tuning based adaptation
strategy that we employ outperforms the previous SOTA approach by 5.01% mAP and
6.61% accuracy while utilizing less than one third of the training data (200k
images as compared to 720k). To assess the real-world applicability of our
proposed models, we conduct a comprehensive evaluation across various
scenarios. This involves rigorous testing on images sourced from 21 distinct
datasets, including those generated by GANs-based, Diffusion-based and
Commercial tools.
- Abstract(参考訳): GAN(Generative Adversarial Networks)の最近の進歩と拡散モデルの出現は、非常に現実的で広くアクセス可能な合成コンテンツの生産を著しく合理化している。
その結果,ディープフェイクによる潜在的なリスクを軽減するため,効果的な汎用的検出機構の必要性が高まった。
本稿では,従来の視覚言語モデル(VLM)と直近の適応手法の併用による全深度検出の有効性について検討する。
この領域での以前の研究に続いて、深度検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを用いる。
しかし,テキスト成分を無視しながらクリップの視覚的部分のみに依存する先行研究とは対照的に,テキスト部分の保持が重要であることが明らかとなった。
その結果,従来のSOTAアプローチを5.01% mAP,6.61%精度で上回り,トレーニングデータの3分の1未満(720kと比較すると200k画像)を生かした,シンプルで軽量なPrompt Tuningベースの適応戦略が得られた。
提案するモデルの現実的な適用性を評価するため,様々なシナリオを包括的に評価する。
これには、GANsベースのDiffusionベースのツールやCommercialツールなど、21の異なるデータセットから生成されたイメージに対する厳格なテストが含まれる。
関連論文リスト
- Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
データ摂動によるモデル予測を操作するモデル再プログラミングパラダイムにより,本手法は事前学習したVLMモデルを再プログラムすることができる。
私たちの優れたパフォーマンスは、トレーニング可能なパラメータのコストを低減し、現実世界のアプリケーションにとって有望なアプローチになります。
論文 参考訳(メタデータ) (2024-09-04T12:46:30Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model [15.61920157541529]
内部にリッチな情報をエンコードしたファンデーションモデルを適用することにより,新しいディープフェイク検出手法を提案する。
近年のパラメータ効率の良い微調整技術に触発されて,新しいサイドネットワーク型デコーダを提案する。
提案手法は,見知らぬディープフェイクサンプルの同定に優れた有効性を示し,顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2024-04-08T14:58:52Z) - Mixture of Low-rank Experts for Transferable AI-Generated Image Detection [18.631006488565664]
生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。
本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。
事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
論文 参考訳(メタデータ) (2024-04-07T09:01:50Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。