Fugu-MT 論文翻訳(概要): Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model

論文の概要: Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model

arxiv url: http://arxiv.org/abs/2404.05583v1
Date: Mon, 8 Apr 2024 14:58:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 13:55:49.120394
Title: Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model
Title（参考訳）: ファウンデーションモデルのための顔特徴ガイド適応によるより一般的なビデオベースディープフェイク検出に向けて
Authors: Yue-Hua Han, Tai-Ming Huang, Shu-Tzu Lo, Po-Han Huang, Kai-Lung Hua, Jun-Cheng Chen,
Abstract要約: 本研究では、ファンデーションモデルの内部に符号化されたリッチ情報に、内部に符号化されたリッチ情報を適応させることにより、新しいディープフェイク検出手法を提案する。近年のパラメータ効率の良い微調整技術に触発されて,新しいサイドネットワーク型デコーダを提案する。提案手法は,見知らぬディープフェイクサンプルの同定に優れた有効性を示し,顕著な性能向上を実現している。
参考スコア（独自算出の注目度）: 15.61920157541529
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of deep learning, generative models have enabled the creation of highly realistic synthetic images, presenting challenges due to their potential misuse. While research in Deepfake detection has grown rapidly in response, many detection methods struggle with unseen Deepfakes generated by new synthesis techniques. To address this generalisation challenge, we propose a novel Deepfake detection approach by adapting rich information encoded inside the Foundation Models with rich information encoded inside, specifically using the image encoder from CLIP which has demonstrated strong zero-shot capability for downstream tasks. Inspired by the recent advances of parameter efficient fine-tuning, we propose a novel side-network-based decoder to extract spatial and temporal cues from the given video clip, with the promotion of the Facial Component Guidance (FCG) to guidencourage the spatial feature to include features of key facial parts for more robust and general Deepfake detection. Through extensive cross-dataset evaluations, our approach exhibits superior effectiveness in identifying unseen Deepfake samples, achieving notable performance improvementsuccess even with limited training samples and manipulation types. Our model secures an average performance enhancement of 0.9% AUROC in cross-dataset assessments comparing with state-of-the-art methods, especiallytablishing a significant lead of achieving 4.4% improvement on the challenging DFDC dataset.
Abstract（参考訳）: ディープラーニングの台頭により、生成モデルは高度に現実的な合成画像の作成を可能にし、その潜在的な誤用による課題を提示している。ディープフェイク検出の研究は、反応が急速に進んでいるが、多くの検出手法は、新しい合成技術によって生成された未知のディープフェイクと競合している。この一般化課題に対処するため、我々は、ファンデーションモデルの内部に符号化されたリッチな情報、特に下流タスクに強力なゼロショット機能を示すCLIPの画像エンコーダを用いて、内部に符号化されたリッチな情報を適応させることにより、新しいディープフェイク検出手法を提案する。近年のパラメータ効率のよい微調整の進歩に触発されて,ビデオクリップから空間的および時間的手がかりを抽出する新しいサイドネットワークベースのデコーダを提案し,より堅牢で汎用的なディープフェイク検出のための重要な顔部品の特徴を含むように空間的特徴を誘導するFCG(Facial Component Guidance)を推進した。大規模なクロスデータセット評価を通じて,本手法は未確認のDeepfakeサンプルを同定し,限られたトレーニングサンプルや操作タイプであっても顕著な性能向上を実現している。本モデルでは,最先端の手法と比較して,AUROCの平均性能向上率は0.9%であり,特にDFDCデータセットの4.4%向上に大きく貢献する。

関連論文リスト

Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Harnessing Wavelet Transformations for Generalizable Deepfake Forgery Detection [0.0]
Wavelet-CLIPは、ウェーブレット変換とViT-L/14アーキテクチャに由来する機能を統合したディープフェイク検出フレームワークで、CLIP方式で事前トレーニングされている。提案手法は,データ間一般化における平均AUC0.749,不明瞭なディープフェイクに対するロバスト性0.893を達成し,優れた性能を示す。
論文参考訳（メタデータ） (2024-09-26T21:16:51Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。データ摂動によるモデル予測を操作するモデル再プログラミングパラダイムにより,本手法は事前学習したVLMモデルを再プログラムすることができる。私たちの優れたパフォーマンスは、トレーニング可能なパラメータのコストを低減し、現実世界のアプリケーションにとって有望なアプローチになります。
論文参考訳（メタデータ） (2024-09-04T12:46:30Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文参考訳（メタデータ） (2024-02-23T01:34:00Z)
DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-07T07:19:45Z)
CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文参考訳（メタデータ） (2023-09-30T12:30:25Z)
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。 CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-18T13:13:09Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2022-09-12T15:05:41Z)
On Improving Cross-dataset Generalization of Deepfake Detectors [1.0152838128195467]
ディープフェイクによる顔の操作は、大きなセキュリティリスクを引き起こし、深刻な社会的懸念を引き起こしている。我々は、教師付きおよび強化学習(RL)のハイブリッド組み合わせとして深層偽検出を定式化し、そのクロスデータセット一般化性能を改善する。提案手法は,ディープフェイク検出器のクロスデータセット一般化における既存の研究よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-08T20:34:53Z)
DeepFake Detection by Analyzing Convolutional Traces [0.0]
我々は,人間の顔のディープフェイクの分析に着目し,新しい検出方法を提案する。提案手法は, 予測最大化(EM)アルゴリズムを用いて, 基礎となる畳み込み生成過程をモデル化するための局所的特徴の集合を抽出する。その結果、異なるアーキテクチャと対応する生成過程を区別する手法の有効性が示された。
論文参考訳（メタデータ） (2020-04-22T09:02:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。