論文の概要: HFI: A unified framework for training-free detection and implicit watermarking of latent diffusion model generated images
- arxiv url: http://arxiv.org/abs/2412.20704v1
- Date: Mon, 30 Dec 2024 04:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:30.245276
- Title: HFI: A unified framework for training-free detection and implicit watermarking of latent diffusion model generated images
- Title(参考訳): HFI:潜在拡散モデル生成画像のトレーニング不要検出と暗黙の透かしのための統合フレームワーク
- Authors: Sungik Choi, Sungwoo Park, Jaehoon Lee, Seunghyun Kim, Stanley Jungkyu Choi, Moontae Lee,
- Abstract要約: 現在のAI生成画像検出方法は、実/AI生成画像のトレーニング利用を前提としている。
本稿では,高周波情報の歪みであるエイリアス範囲を測定するHFIを提案する。
その結果,HFIは暗黙的な透かしの手段として,特定のLCMから生成された画像を検出することができた。
- 参考スコア(独自算出の注目度): 32.4045133529788
- License:
- Abstract: Dramatic advances in the quality of the latent diffusion models (LDMs) also led to the malicious use of AI-generated images. While current AI-generated image detection methods assume the availability of real/AI-generated images for training, this is practically limited given the vast expressibility of LDMs. This motivates the training-free detection setup where no related data are available in advance. The existing LDM-generated image detection method assumes that images generated by LDM are easier to reconstruct using an autoencoder than real images. However, we observe that this reconstruction distance is overfitted to background information, leading the current method to underperform in detecting images with simple backgrounds. To address this, we propose a novel method called HFI. Specifically, by viewing the autoencoder of LDM as a downsampling-upsampling kernel, HFI measures the extent of aliasing, a distortion of high-frequency information that appears in the reconstructed image. HFI is training-free, efficient, and consistently outperforms other training-free methods in detecting challenging images generated by various generative models. We also show that HFI can successfully detect the images generated from the specified LDM as a means of implicit watermarking. HFI outperforms the best baseline method while achieving magnitudes of
- Abstract(参考訳): 遅延拡散モデル(LDM)の品質の劇的な進歩は、AI生成画像の悪意ある使用にも繋がった。
現在のAI生成画像検出手法では、実/AI生成画像のトレーニング利用が想定されているが、LDMの大幅な表現性を考えると、実質的に制限されている。
これにより、関連するデータが事前に入手できないトレーニング不要な検出設定がモチベーションとなる。
既存のLCM生成画像検出法では、実画像よりもオートエンコーダを用いて、LCMによって生成された画像の再構成が容易であると仮定する。
しかし、この再構成距離が背景情報に過度に適合していることが観察され、現在の手法は単純な背景画像の検出において過度に性能を低下させる。
そこで本研究では,HFIと呼ばれる新しい手法を提案する。
具体的には、LDMのオートエンコーダをダウンサンプリングサンプリングカーネルとして見ることにより、HFIは、再構成画像に現れる高周波情報の歪みであるエイリアシングの程度を測定する。
HFIはトレーニングなし、効率的で、様々な生成モデルによって生成された挑戦的な画像を検出する他のトレーニングなしの手法よりも一貫して優れています。
また,HFI は暗黙的な透かしの手段として,特定 LDM から生成された画像の検出に成功していることを示す。
HFIは、最高のベースライン法を上回りながら、等級を達成している。
関連論文リスト
- Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Detecting AutoEncoder is Enough to Catch LDM Generated Images [0.0]
本稿では,自己エンコーダが導入したアーティファクトを識別することで,LDM(Latent Diffusion Models)によって生成された画像を検出する手法を提案する。
LDMオートエンコーダによって再構成された画像と実際の画像とを区別するように検出器を訓練することにより、直接トレーニングすることなく、生成された画像を検出することができる。
実験の結果,最小限の偽陽性で高い検出精度を示し,この手法は偽画像と戦うための有望なツールとなる。
論文 参考訳(メタデータ) (2024-11-10T12:17:32Z) - One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error [15.46508882889489]
計算コストの低い高解像度画像を生成するための重要なイネーブルは、潜時拡散モデル(LDM)の開発である。
LDMは、高次元画像空間の代わりに、事前訓練されたオートエンコーダ(AE)の低次元潜時空間で復調処理を行う。
本稿では,画像と潜時空間間の画像変換に用いるAEという,LDMの固有成分を利用した新しい検出手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T14:36:49Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Exposing the Fake: Effective Diffusion-Generated Images Detection [14.646957596560076]
本稿では拡散生成画像検出(SeDID)のためのステップワイド誤差と呼ばれる新しい検出法を提案する。
SeDIDは拡散モデルのユニークな特性、すなわち決定論的逆転と決定論的逆退誤差を利用する。
我々の研究は拡散モデル生成画像の識別に重要な貢献をしており、人工知能のセキュリティ分野における重要なステップとなっている。
論文 参考訳(メタデータ) (2023-07-12T16:16:37Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。