論文の概要: LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2507.03054v2
- Date: Mon, 29 Sep 2025 19:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 19:34:21.408688
- Title: LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection
- Title(参考訳): LATTE:拡散生成画像検出のための潜在軌道埋め込み
- Authors: Ana Vasilcoiu, Ivona Najdenkoska, Zeno Geradts, Marcel Worring,
- Abstract要約: LATent Trajectory Embeddingは、複数の認知ステップにまたがる遅延埋め込みの進化をモデル化する新しいアプローチである。
GenImage、Chameleon、Diffusion Forensicsといったいくつかのベンチマークの実験は、LATTEが優れたパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 13.576997219135992
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of diffusion-based image generators has made it increasingly difficult to distinguish generated from real images. This erodes trust in digital media, making it critical to develop generated image detectors that remain reliable across different generators. While recent approaches leverage diffusion denoising cues, they typically rely on single-step reconstruction errors and overlook the sequential nature of the denoising process. In this work, we propose LATTE - LATent Trajectory Embedding - a novel approach that models the evolution of latent embeddings across multiple denoising steps. Instead of treating each denoising step in isolation, LATTE captures the trajectory of these representations, revealing subtle and discriminative patterns that distinguish real from generated images. Experiments on several benchmarks, such as GenImage, Chameleon, and Diffusion Forensics, show that LATTE achieves superior performance, especially in challenging cross-generator and cross-dataset scenarios, highlighting the potential of latent trajectory modeling. The code is available on the following link: https://github.com/AnaMVasilcoiu/LATTE-Diffusion-Detector.
- Abstract(参考訳): 拡散型画像生成装置の急速な進歩により、実際の画像との区別がますます困難になっている。
これはデジタルメディアへの信頼を損なうため、異なる発電機間で信頼性を維持した生成画像検出器の開発が重要となる。
近年の手法では拡散復調法が用いられているが、通常は単一ステップの再構成誤差に依存し、復調過程のシーケンシャルな性質を見落としている。
LATTE - LATent Trajectory Embedding - 複数の認知ステップにまたがる遅延埋め込みの進化をモデル化する新しいアプローチを提案する。
LATTEは分離したステップを個別に扱う代わりに、これらの表現の軌跡を捉え、実際の画像と生成された画像とを区別する微妙で差別的なパターンを明らかにする。
GenImage、Chameleon、Diffusion Forensicsといったいくつかのベンチマークの実験では、特にクロスジェネレータやクロスデータセットのシナリオにおいて、LATTEは優れたパフォーマンスを実現し、潜在軌道モデリングの可能性を強調している。
コードは以下のリンクで入手できる。 https://github.com/AnaMVasilcoiu/LATTE-Diffusion-Detector。
関連論文リスト
- Explainable Synthetic Image Detection through Diffusion Timestep Ensembling [30.298198387824275]
本稿では,複数の雑音の時間ステップでアンサンブルを訓練することにより,中間雑音画像の特徴を直接活用する合成画像検出手法を提案する。
人間の理解を深めるために,メートル法に基づく説明文生成と改良モジュールを導入する。
本手法は, 正解率98.91%, 正解率95.89%, 正解率95.89%, 正解率98.91%, 正解率95.89%である。
論文 参考訳(メタデータ) (2025-03-08T13:04:20Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error [15.46508882889489]
計算コストの低い高解像度画像を生成するための重要なイネーブルは、潜時拡散モデル(LDM)の開発である。
LDMは、高次元画像空間の代わりに、事前訓練されたオートエンコーダ(AE)の低次元潜時空間で復調処理を行う。
本稿では,画像と潜時空間間の画像変換に用いるAEという,LDMの固有成分を利用した新しい検出手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T14:36:49Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Diffusion Noise Feature: Accurate and Fast Generated Image Detection [28.262273539251172]
生成モデルは、驚くほどリアルなイメージを生成できる先進的な段階に達している。
生成された画像に対する既存の画像検出器は、低精度や限定的な一般化といった課題に直面している。
本稿では,生成画像の検出能力を高めるために,強力な一般化機能を備えた表現を求めることにより,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-05T10:01:11Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。