論文の概要: SARE: Semantic-Aware Reconstruction Error for Generalizable Diffusion-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2508.09487v1
- Date: Wed, 13 Aug 2025 04:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.759952
- Title: SARE: Semantic-Aware Reconstruction Error for Generalizable Diffusion-Generated Image Detection
- Title(参考訳): SARE: 一般化拡散生成画像検出のための意味認識再構成誤差
- Authors: Ju Yeon Kang, Jaehong Park, Semin Kim, Ji Won Yoon, Nam Soo Kim,
- Abstract要約: 本稿では,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)を計測する新しい表現を提案する。
これらの意味的シフトを定量化することにより、SAREは多様な生成モデル間で堅牢な検出を行うための識別的特徴として利用することができる。
- 参考スコア(独自算出の注目度): 10.222819481009797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion-generated image detection has gained increasing attention, as the rapid advancement of diffusion models has raised serious concerns about their potential misuse. While existing detection methods have achieved promising results, their performance often degrades significantly when facing fake images from unseen, out-of-distribution (OOD) generative models, since they primarily rely on model-specific artifacts. To address this limitation, we explore a fundamental property commonly observed in fake images. Motivated by the observation that fake images tend to exhibit higher similarity to their captions than real images, we propose a novel representation, namely Semantic-Aware Reconstruction Error (SARE), that measures the semantic difference between an image and its caption-guided reconstruction. The hypothesis behind SARE is that real images, whose captions often fail to fully capture their complex visual content, may undergo noticeable semantic shifts during the caption-guided reconstruction process. In contrast, fake images, which closely align with their captions, show minimal semantic changes. By quantifying these semantic shifts, SARE can be utilized as a discriminative feature for robust detection across diverse generative models. We empirically demonstrate that the proposed method exhibits strong generalization, outperforming existing baselines on benchmarks including GenImage and CommunityForensics.
- Abstract(参考訳): 近年,拡散モデルが急速に進歩するにつれ,拡散生成画像の検出が注目されている。
既存の検出手法は有望な結果を得たが、その性能は、主にモデル固有の成果物に依存しているため、目に見えない、アウト・オブ・ディストリビューション(OOD)生成モデルからの偽画像に直面すると著しく低下することが多い。
この制限に対処するため、偽画像でよく見られる基本特性を探索する。
偽画像は実画像よりもキャプションに類似する傾向が強く,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)という新しい表現を提案する。
SAREの背後にある仮説は、キャプションが複雑な視覚的内容を完全にキャプチャできないことが多い実際の画像は、キャプション誘導再建プロセス中に顕著な意味変化を起こす可能性があるというものである。
対照的に、キャプションと密接に一致した偽画像は、最小限の意味的変化を示す。
これらの意味的シフトを定量化することにより、SAREは多様な生成モデル間で堅牢な検出を行うための識別的特徴として利用することができる。
提案手法は,GenImageやCommunityForensicsなどのベンチマークにおいて,既存のベースラインよりも優れていることを示す。
関連論文リスト
- LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection [11.700935740718675]
LATTE(Latent Trajectory Embedding)は、遅延埋め込みの進化をいくつかの遅延時間ステップでモデル化する、新しいアプローチである。
単一ステップエラーではなく、そのような埋め込みの軌跡をモデル化することにより、LATTEは、生成した画像と実を区別する微妙で差別的なパターンをキャプチャする。
論文 参考訳(メタデータ) (2025-07-03T12:53:47Z) - A Watermark for Auto-Regressive Image Generation Models [50.599325258178254]
画像生成モデル用に明示的に設計された歪みのない透かし法であるC-reweightを提案する。
C-reweightは画像の忠実性を維持しながら再起動ミスマッチを緩和する。
論文 参考訳(メタデータ) (2025-06-13T00:15:54Z) - Explainable Synthetic Image Detection through Diffusion Timestep Ensembling [30.298198387824275]
本稿では,複数の雑音の時間ステップでアンサンブルを訓練することにより,中間雑音画像の特徴を直接活用する合成画像検出手法を提案する。
人間の理解を深めるために,メートル法に基づく説明文生成と改良モジュールを導入する。
本手法は, 正解率98.91%, 正解率95.89%, 正解率95.89%, 正解率98.91%, 正解率95.89%である。
論文 参考訳(メタデータ) (2025-03-08T13:04:20Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Detecting Images Generated by Diffusers [12.986394431694206]
MSCOCOとWikimediaのデータセットのキャプションから生成された画像は、安定拡散とGLIDEの2つの最先端モデルを用いて検討する。
実験の結果, 単純なマルチ層パーセプトロンを用いて生成した画像を検出することができることがわかった。
関連したテキスト情報を画像に組み込むと、検出結果が大幅に改善されることは滅多にない。
論文 参考訳(メタデータ) (2023-03-09T14:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。