論文の概要: LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2507.03054v1
- Date: Thu, 03 Jul 2025 12:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.563446
- Title: LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection
- Title(参考訳): LATTE:拡散生成画像検出のための潜在軌道埋め込み
- Authors: Ana Vasilcoiu, Ivona Najdenkoska, Zeno Geradts, Marcel Worring,
- Abstract要約: LATTE(Latent Trajectory Embedding)は、遅延埋め込みの進化をいくつかの遅延時間ステップでモデル化する、新しいアプローチである。
単一ステップエラーではなく、そのような埋め込みの軌跡をモデル化することにより、LATTEは、生成した画像と実を区別する微妙で差別的なパターンをキャプチャする。
- 参考スコア(独自算出の注目度): 11.700935740718675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of diffusion-based image generators has made it increasingly difficult to distinguish generated from real images. This can erode trust in digital media, making it critical to develop generalizable detectors for generated images. Recent methods leverage diffusion denoising cues, but mainly focus on single-step reconstruction errors, ignoring the inherent sequential nature of the denoising process. In this work, we propose LATTE - Latent Trajectory Embedding - a novel approach that models the evolution of latent embeddings across several denoising timesteps. By modeling the trajectory of such embeddings rather than single-step errors, LATTE captures subtle, discriminative patterns that distinguish real from generated images. Each latent is refined by employing our latent-visual feature refinement module and aggregated into a unified representation. Afterwards, it is fused with the visual features and finally passed into a lightweight classifier. Our experiments demonstrate that LATTE surpasses the baselines on several established benchmarks, such as GenImage and DiffusionFake. Moreover, it demonstrates strong performance in cross-generator and cross-datasets settings, highlighting the potential of using the trajectory of latent embeddings for generated image detection. The code is available on the following link: https://github.com/AnaMVasilcoiu/LATTE-Diffusion-Detector.
- Abstract(参考訳): 拡散型画像生成装置の急速な進歩により、実際の画像との区別がますます困難になっている。
これはデジタルメディアへの信頼を損なう可能性があるため、生成された画像に対する一般化可能な検出器を開発することが重要である。
近年の手法では拡散復調の手法が活用されているが, 主に単一ステップの復元誤差に着目し, 復調過程の本質的にの逐次性を無視している。
LATTE - Latent Trajectory Embedding - 複数の遅延埋め込みの進化をモデル化する新しいアプローチを提案する。
単一ステップエラーではなく、そのような埋め込みの軌跡をモデル化することにより、LATTEは、生成した画像と実を区別する微妙で差別的なパターンをキャプチャする。
各潜伏は、我々の潜伏視特徴改善モジュールを使用して洗練され、統一表現に集約される。
その後、視覚的特徴と融合し、最終的に軽量の分類器に渡される。
我々の実験は、LATTEがGenImageやDiffusionFakeといったいくつかの確立したベンチマークのベースラインを超えることを示した。
さらに、クロスジェネレータとクロスデータセットの設定において強力な性能を示し、生成した画像検出に潜在埋め込みの軌道を使用する可能性を強調している。
コードは以下のリンクで入手できる。 https://github.com/AnaMVasilcoiu/LATTE-Diffusion-Detector。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error [15.46508882889489]
計算コストの低い高解像度画像を生成するための重要なイネーブルは、潜時拡散モデル(LDM)の開発である。
LDMは、高次元画像空間の代わりに、事前訓練されたオートエンコーダ(AE)の低次元潜時空間で復調処理を行う。
本稿では,画像と潜時空間間の画像変換に用いるAEという,LDMの固有成分を利用した新しい検出手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T14:36:49Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Diffusion Noise Feature: Accurate and Fast Generated Image Detection [28.262273539251172]
生成モデルは、驚くほどリアルなイメージを生成できる先進的な段階に達している。
生成された画像に対する既存の画像検出器は、低精度や限定的な一般化といった課題に直面している。
本稿では,生成画像の検出能力を高めるために,強力な一般化機能を備えた表現を求めることにより,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-05T10:01:11Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。