論文の概要: Parents and Children: Distinguishing Multimodal DeepFakes from Natural
Images
- arxiv url: http://arxiv.org/abs/2304.00500v1
- Date: Sun, 2 Apr 2023 10:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:38:53.233214
- Title: Parents and Children: Distinguishing Multimodal DeepFakes from Natural
Images
- Title(参考訳): 親子:自然画像からマルチモーダルディープフェイクを識別する
- Authors: Roberto Amoroso, Davide Morelli, Marcella Cornia, Lorenzo Baraldi,
Alberto Del Bimbo, Rita Cucchiara
- Abstract要約: 我々は,最先端拡散モデルにより生成された偽画像の正当性に関する体系的研究を開拓した。
我々の分析は、偽画像は共通の低レベルな手がかりを共有しており、容易に認識できることを示している。
本設定では,偽検出手法の性能を定量的に評価し,コントラッシブ・ベース・ディエンタング・ストラテジーを導入する。
- 参考スコア(独自算出の注目度): 59.71861772648853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in diffusion models have enabled the generation of
realistic deepfakes by writing textual prompts in natural language. While these
models have numerous benefits across various sectors, they have also raised
concerns about the potential misuse of fake images and cast new pressures on
fake image detection. In this work, we pioneer a systematic study of the
authenticity of fake images generated by state-of-the-art diffusion models.
Firstly, we conduct a comprehensive study on the performance of contrastive and
classification-based visual features. Our analysis demonstrates that fake
images share common low-level cues, which render them easily recognizable.
Further, we devise a multimodal setting wherein fake images are synthesized by
different textual captions, which are used as seeds for a generator. Under this
setting, we quantify the performance of fake detection strategies and introduce
a contrastive-based disentangling strategy which let us analyze the role of the
semantics of textual descriptions and low-level perceptual cues. Finally, we
release a new dataset, called COCOFake, containing about 600k images generated
from original COCO images.
- Abstract(参考訳): 近年の拡散モデルの発展により、自然言語でテキストプロンプトを書くことで現実的なディープフェイクが生成できるようになった。
これらのモデルは様々な分野に多くの利点があるが、偽画像の誤用の可能性や偽画像検出への新たな圧力も懸念されている。
本研究では,最先端拡散モデルにより生成された偽画像の正当性に関する体系的な研究を開拓する。
まず,コントラストと分類に基づく視覚特徴の総合的な評価を行った。
我々の分析は、偽画像が共通の低レベルの手がかりを共有していることを示す。
さらに,フェイク画像を異なるテキストキャプションで合成し,生成装置の種として使用するマルチモーダル設定を考案する。
そこで本研究では,テキスト記述と低レベルの知覚的手がかりのセマンティクスの役割を解析するための,偽検出戦略の定量化と,コントラストに基づくディエンタング戦略を導入する。
最後に、COCO画像から生成された約600万の画像を含むCOCOFakeと呼ばれる新しいデータセットをリリースする。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning [22.4158195581231]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - DE-FAKE: Detection and Attribution of Fake Images Generated by
Text-to-Image Diffusion Models [12.310393737912412]
我々は,テキスト・ツー・イメージ拡散モデルにより生成された偽画像の正当性に関する体系的な研究を開拓した。
視覚的モダリティのために、これらのテキスト・画像拡散モデルの偽画像が共通の手がかりを共有していることを示す普遍的検出を提案する。
言語的モダリティについて,テキスト・ツー・イメージ拡散モデルの画像信頼度に及ぼすテキストキャプションの影響を解析する。
論文 参考訳(メタデータ) (2022-10-13T13:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。