論文の概要: Text Modality Oriented Image Feature Extraction for Detecting Diffusion-based DeepFake
- arxiv url: http://arxiv.org/abs/2405.18071v1
- Date: Tue, 28 May 2024 11:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:58:39.229199
- Title: Text Modality Oriented Image Feature Extraction for Detecting Diffusion-based DeepFake
- Title(参考訳): 拡散に基づくディープフェイク検出のためのテキストモダリティ指向画像特徴抽出
- Authors: Di Yang, Yihao Huang, Qing Guo, Felix Juefei-Xu, Xiaojun Jia, Run Wang, Geguang Pu, Yang Liu,
- Abstract要約: 拡散ベースのDeepFakesは、オンライン情報の完全性と安全性に重大なリスクをもたらす。
テキストモダリティ指向の特徴抽出手法TOFEを提案する。
10種類の拡散型を対象に実験を行い,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 32.237169711785896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of diffusion methods enables the creation of highly realistic images on demand, thereby posing significant risks to the integrity and safety of online information and highlighting the necessity of DeepFake detection. Our analysis of features extracted by traditional image encoders reveals that both low-level and high-level features offer distinct advantages in identifying DeepFake images produced by various diffusion methods. Inspired by this finding, we aim to develop an effective representation that captures both low-level and high-level features to detect diffusion-based DeepFakes. To address the problem, we propose a text modality-oriented feature extraction method, termed TOFE. Specifically, for a given target image, the representation we discovered is a corresponding text embedding that can guide the generation of the target image with a specific text-to-image model. Experiments conducted across ten diffusion types demonstrate the efficacy of our proposed method.
- Abstract(参考訳): 拡散法の普及により、オンデマンドで非常にリアルな画像を作成することが可能となり、オンライン情報の完全性と安全性に重大なリスクを生じさせ、DeepFake検出の必要性を強調している。
従来の画像エンコーダで抽出した特徴を解析した結果,様々な拡散法により生成されたDeepFake画像の識別において,低レベルの特徴と高レベルの特徴の両方が明らかとなった。
この発見に触発されて、拡散に基づくDeepFakeを検出するために、低レベルと高レベルの両方の特徴をキャプチャする効果的な表現を開発することを目指している。
そこで本研究では,TOFEと呼ばれるテキストモダリティ指向の特徴抽出手法を提案する。
具体的には,特定の対象画像に対して,対象画像の生成を特定のテキスト・ツー・イメージ・モデルでガイドできる,対応するテキスト埋め込みである。
10種類の拡散型を対象に実験を行い,提案手法の有効性を実証した。
関連論文リスト
- Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions [30.148969711689773]
本稿では, 単一画像深度推定タスクにおいて, ディストリビューションデータの挑戦によって生じる複雑さに対処する新しい手法を提案する。
我々は,包括的課題と関連する深度情報を用いて,新たなユーザ定義シーンを体系的に生成する。
これは、深度認識制御による最先端のテキスト・画像拡散モデルを活用することで実現される。
論文 参考訳(メタデータ) (2024-07-23T17:59:59Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Diffusion Facial Forgery Detection [56.69763252655695]
本稿では,顔に焦点をあてた拡散生成画像を対象とした包括的データセットであるDiFFを紹介する。
人体実験といくつかの代表的な偽造検出手法を用いて,DiFFデータセットの広範な実験を行った。
その結果、人間の観察者と自動検出者の2値検出精度は30%以下であることが判明した。
論文 参考訳(メタデータ) (2024-01-29T03:20:19Z) - DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake
Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。
本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T07:19:45Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - DE-FAKE: Detection and Attribution of Fake Images Generated by
Text-to-Image Diffusion Models [12.310393737912412]
我々は,テキスト・ツー・イメージ拡散モデルにより生成された偽画像の正当性に関する体系的な研究を開拓した。
視覚的モダリティのために、これらのテキスト・画像拡散モデルの偽画像が共通の手がかりを共有していることを示す普遍的検出を提案する。
言語的モダリティについて,テキスト・ツー・イメージ拡散モデルの画像信頼度に及ぼすテキストキャプションの影響を解析する。
論文 参考訳(メタデータ) (2022-10-13T13:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。