Fugu-MT 論文翻訳(概要): CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection

論文の概要: CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection

arxiv url: http://arxiv.org/abs/2402.12927v1
Date: Tue, 20 Feb 2024 11:26:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 15:43:38.631908
Title: CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection
Title（参考訳）: clipping the deception: 普遍的ディープフェイク検出のための視覚言語モデルの適用
Authors: Sohail Ahmed Khan and Duc-Tien Dang-Nguyen
Abstract要約: 広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
参考スコア（独自算出の注目度）: 3.849401956130233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent advancements in Generative Adversarial Networks (GANs) and the emergence of Diffusion models have significantly streamlined the production of highly realistic and widely accessible synthetic content. As a result, there is a pressing need for effective general purpose detection mechanisms to mitigate the potential risks posed by deepfakes. In this paper, we explore the effectiveness of pre-trained vision-language models (VLMs) when paired with recent adaptation methods for universal deepfake detection. Following previous studies in this domain, we employ only a single dataset (ProGAN) in order to adapt CLIP for deepfake detection. However, in contrast to prior research, which rely solely on the visual part of CLIP while ignoring its textual component, our analysis reveals that retaining the text part is crucial. Consequently, the simple and lightweight Prompt Tuning based adaptation strategy that we employ outperforms the previous SOTA approach by 5.01% mAP and 6.61% accuracy while utilizing less than one third of the training data (200k images as compared to 720k). To assess the real-world applicability of our proposed models, we conduct a comprehensive evaluation across various scenarios. This involves rigorous testing on images sourced from 21 distinct datasets, including those generated by GANs-based, Diffusion-based and Commercial tools.
Abstract（参考訳）: GAN(Generative Adversarial Networks)の最近の進歩と拡散モデルの出現は、非常に現実的で広くアクセス可能な合成コンテンツの生産を著しく合理化している。その結果,ディープフェイクによる潜在的なリスクを軽減するため,効果的な汎用的検出機構の必要性が高まった。本稿では,従来の視覚言語モデル(VLM)と直近の適応手法の併用による全深度検出の有効性について検討する。この領域での以前の研究に続いて、深度検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを用いる。しかし,テキスト成分を無視しながらクリップの視覚的部分のみに依存する先行研究とは対照的に,テキスト部分の保持が重要であることが明らかとなった。その結果,従来のSOTAアプローチを5.01% mAP,6.61%精度で上回り,トレーニングデータの3分の1未満(720kと比較すると200k画像)を生かした,シンプルで軽量なPrompt Tuningベースの適応戦略が得られた。提案するモデルの現実的な適用性を評価するため,様々なシナリオを包括的に評価する。これには、GANsベースのDiffusionベースのツールやCommercialツールなど、21の異なるデータセットから生成されたイメージに対する厳格なテストが含まれる。

関連論文リスト

Learning from Random Subspace Exploration: Generalized Test-Time Augmentation with Self-supervised Distillation [8.511846002129522]
GTTA(Generalized Test-Time Augmentation)は、訓練されたモデルの性能を向上させるための非常に効果的な手法である。低視認性水中ビデオにおけるサーモンのセグメンテーションと検出という,より具体的な現実世界のタスクにおいて,その効果を実証する。
論文参考訳（メタデータ） (2025-07-02T04:30:04Z)
Unlocking the Hidden Potential of CLIP in Generalizable Deepfake Detection [23.48106270102081]
本稿では,顔の深部を部分的に操作して検出する課題に対処する。我々は、Contrastive Language-Image Pre-Training(CLIP)モデル、特にViT-L/14ビジュアルエンコーダを利用する。提案手法は,LNチューニングなどのPEFT技術を用いて,モデルのパラメータの小さな部分集合を調整する。
論文参考訳（メタデータ） (2025-03-25T14:10:54Z)
Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。データ摂動によるモデル予測を操作するモデル再プログラミングパラダイムにより,本手法は事前学習したVLMモデルを再プログラムすることができる。私たちの優れたパフォーマンスは、トレーニング可能なパラメータのコストを低減し、現実世界のアプリケーションにとって有望なアプローチになります。
論文参考訳（メタデータ） (2024-09-04T12:46:30Z)
Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文参考訳（メタデータ） (2024-08-23T01:53:36Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model [15.61920157541529]
内部にリッチな情報をエンコードしたファンデーションモデルを適用することにより,新しいディープフェイク検出手法を提案する。近年のパラメータ効率の良い微調整技術に触発されて,新しいサイドネットワーク型デコーダを提案する。提案手法は,見知らぬディープフェイクサンプルの同定に優れた有効性を示し,顕著な性能向上を実現している。
論文参考訳（メタデータ） (2024-04-08T14:58:52Z)
Mixture of Low-rank Experts for Transferable AI-Generated Image Detection [18.631006488565664]
生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
論文参考訳（メタデータ） (2024-04-07T09:01:50Z)
Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。検出精度は初期41%からOODテストセットの92%に改善した。
論文参考訳（メタデータ） (2023-09-23T05:02:31Z)
Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文参考訳（メタデータ） (2023-07-28T16:03:28Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Novel Human-Object Interaction Detection via Adversarial Domain Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文参考訳（メタデータ） (2020-05-22T22:02:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。