論文の概要: DE-FAKE: Detection and Attribution of Fake Images Generated by
Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2210.06998v1
- Date: Thu, 13 Oct 2022 13:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:24:54.480385
- Title: DE-FAKE: Detection and Attribution of Fake Images Generated by
Text-to-Image Diffusion Models
- Title(参考訳): DE-FAKE:テキスト・画像拡散モデルによるフェイク画像の検出と寄与
- Authors: Zeyang Sha and Zheng Li and Ning Yu and Yang Zhang
- Abstract要約: 我々は,テキスト・ツー・イメージ拡散モデルにより生成された偽画像の正当性に関する体系的な研究を開拓した。
視覚的モダリティのために、これらのテキスト・画像拡散モデルの偽画像が共通の手がかりを共有していることを示す普遍的検出を提案する。
言語的モダリティについて,テキスト・ツー・イメージ拡散モデルの画像信頼度に及ぼすテキストキャプションの影響を解析する。
- 参考スコア(独自算出の注目度): 12.310393737912412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models emerge to establish the new state of the art in the visual
generation. In particular, text-to-image diffusion models that generate images
based on caption descriptions have attracted increasing attention, impressed by
their user controllability. Despite encouraging performance, they exaggerate
concerns of fake image misuse and cast new pressures on fake image detection.
In this work, we pioneer a systematic study of the authenticity of fake images
generated by text-to-image diffusion models. In particular, we conduct
comprehensive studies from two perspectives unique to the text-to-image model,
namely, visual modality and linguistic modality. For visual modality, we
propose universal detection that demonstrates fake images of these
text-to-image diffusion models share common cues, which enable us to
distinguish them apart from real images. We then propose source attribution
that reveals the uniqueness of the fingerprints held by each diffusion model,
which can be used to attribute each fake image to its model source. A variety
of ablation and analysis studies further interpret the improvements from each
of our proposed methods. For linguistic modality, we delve deeper to
comprehensively analyze the impacts of text captions (called prompt analysis)
on the image authenticity of text-to-image diffusion models, and reason the
impacts to the detection and attribution performance of fake images. All
findings contribute to the community's insight into the natural properties of
text-to-image diffusion models, and we appeal to our community's consideration
on the counterpart solutions, like ours, against the rapidly-evolving fake
image generators.
- Abstract(参考訳): 拡散モデルが登場し、視覚生成における新しい技術の状態を確立する。
特に字幕記述に基づく画像を生成するテキストから画像への拡散モデルは,ユーザの制御性に感銘を受け,注目を集めている。
性能向上にもかかわらず、偽画像誤用に対する懸念を誇張し、偽画像検出に新たな圧力をかけた。
本研究では,テキストから画像への拡散モデルによって生成された偽画像の真正性に関する体系的研究を行う。
特に,テキスト対画像モデルに特有の2つの視点,すなわち視覚モダリティと言語モダリティを包括的に研究する。
視覚モダリティのために,これらのテキストから画像への拡散モデルの偽画像が共通の手がかりを共有していることを示す普遍的検出法を提案する。
次に,各拡散モデルが保持する指紋の特異性を明らかにするソース属性を提案する。
様々なアブレーションおよび分析研究により,提案手法のそれぞれの改良がさらに解釈される。
言語的モダリティについては,テキスト・ツー・イメージ拡散モデルの画像信頼性に及ぼすテキストキャプション(即時解析)の影響を包括的に分析し,偽画像の検出と帰属性に与える影響を推論する。
すべての発見は、テキストから画像への拡散モデルの自然な性質に対するコミュニティの洞察に寄与し、急速に進化する偽画像生成装置に対して、私たちのような対応するソリューションに対するコミュニティの考えに訴えます。
関連論文リスト
- DiffusionPID: Interpreting Diffusion via Partial Information Decomposition [24.83767778658948]
入力テキストプロンプトを基本成分に分解するために,情報理論の原理を適用した。
個々のトークンとその相互作用が生成した画像をどのように形成するかを分析する。
PIDはテキスト・画像拡散モデルの評価と診断のための強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-06-07T18:17:17Z) - ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images [34.02058539403381]
我々は、人間の意味的知識を活用して、偽画像検出のフレームワークに含まれる可能性を調べる。
予備的な統計的分析により、人間が本物の画像や変化した画像をどのように知覚するかの特徴的なパターンを探索する。
論文 参考訳(メタデータ) (2024-03-13T19:56:30Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。