論文の概要: Semantic-Aware Reconstruction Error for Detecting AI-Generated Images
- arxiv url: http://arxiv.org/abs/2508.09487v2
- Date: Thu, 25 Sep 2025 06:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 16:29:06.369927
- Title: Semantic-Aware Reconstruction Error for Detecting AI-Generated Images
- Title(参考訳): AI生成画像検出のための意味認識再構成誤差
- Authors: Ju Yeon Kang, Jaehong Park, Semin Kim, Ji Won Yoon, Nam Soo Kim,
- Abstract要約: 本稿では,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)を計測する新しい表現を提案する。
SAREは、さまざまな生成モデル間で偽画像を検出するための堅牢で差別的な機能を提供する。
また,SAREを背骨検出器に統合する融合モジュールを,クロスアテンション機構を介して導入する。
- 参考スコア(独自算出の注目度): 22.83053631078616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, AI-generated image detection has gained increasing attention, as the rapid advancement of image generation technologies has raised serious concerns about their potential misuse. While existing detection methods have achieved promising results, their performance often degrades significantly when facing fake images from unseen, out-of-distribution (OOD) generative models, since they primarily rely on model-specific artifacts and thus overfit to the models used for training. To address this limitation, we propose a novel representation, namely Semantic-Aware Reconstruction Error (SARE), that measures the semantic difference between an image and its caption-guided reconstruction. The key hypothesis behind SARE is that real images, whose captions often fail to fully capture their complex visual content, may undergo noticeable semantic shifts during the caption-guided reconstruction process. In contrast, fake images, which closely align with their captions, show minimal semantic changes. By quantifying these semantic shifts, SARE provides a robust and discriminative feature for detecting fake images across diverse generative models. Additionally, we introduce a fusion module that integrates SARE into the backbone detector via a cross-attention mechanism. Image features attend to semantic representations extracted from SARE, enabling the model to adaptively leverage semantic information. Experimental results demonstrate that the proposed method achieves strong generalization, outperforming existing baselines on benchmarks including GenImage and ForenSynths. We further validate the effectiveness of caption guidance through a detailed analysis of semantic shifts, confirming its ability to enhance detection robustness.
- Abstract(参考訳): 近年、画像生成技術の急速な進歩により、AIによる画像検出が注目され、その潜在的な誤用に対する深刻な懸念が高まっている。
既存の検出手法は有望な結果を得たが、その性能は、主にモデル固有のアーティファクトに依存しており、トレーニングに使用されるモデルに過度に適合するため、目に見えない、アウト・オブ・ディストリビューション(OOD)生成モデルから偽画像に直面すると著しく低下することが多い。
この制限に対処するため、画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)という新しい表現を提案する。
SAREの背景にある重要な仮説は、キャプションが複雑な視覚的内容を完全に捉えるのに失敗する実際の画像は、キャプション誘導再建プロセス中に顕著なセマンティックシフトを起こす可能性があるというものである。
対照的に、キャプションと密接に一致した偽画像は、最小限の意味的変化を示す。
これらのセマンティックシフトを定量化することにより、SAREは多様な生成モデル間で偽画像を検出する堅牢で差別的な機能を提供する。
さらに,SAREを背骨検出器に統合する融合モジュールを,クロスアテンション機構を介して導入する。
画像特徴は、SAREから抽出された意味表現に付随し、モデルが意味情報を適応的に活用できるようにする。
実験により,提案手法は,GenImageやForenSynthsなどのベンチマークにおいて,既存のベースラインよりも優れた性能を有することを示す。
さらにセマンティックシフトの詳細な分析を通じてキャプションガイダンスの有効性を検証し,検出堅牢性を高める能力を確認した。
関連論文リスト
- LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection [11.700935740718675]
LATTE(Latent Trajectory Embedding)は、遅延埋め込みの進化をいくつかの遅延時間ステップでモデル化する、新しいアプローチである。
単一ステップエラーではなく、そのような埋め込みの軌跡をモデル化することにより、LATTEは、生成した画像と実を区別する微妙で差別的なパターンをキャプチャする。
論文 参考訳(メタデータ) (2025-07-03T12:53:47Z) - A Watermark for Auto-Regressive Image Generation Models [50.599325258178254]
画像生成モデル用に明示的に設計された歪みのない透かし法であるC-reweightを提案する。
C-reweightは画像の忠実性を維持しながら再起動ミスマッチを緩和する。
論文 参考訳(メタデータ) (2025-06-13T00:15:54Z) - Explainable Synthetic Image Detection through Diffusion Timestep Ensembling [30.298198387824275]
本稿では,複数の雑音の時間ステップでアンサンブルを訓練することにより,中間雑音画像の特徴を直接活用する合成画像検出手法を提案する。
人間の理解を深めるために,メートル法に基づく説明文生成と改良モジュールを導入する。
本手法は, 正解率98.91%, 正解率95.89%, 正解率95.89%, 正解率98.91%, 正解率95.89%である。
論文 参考訳(メタデータ) (2025-03-08T13:04:20Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Detecting Images Generated by Diffusers [12.986394431694206]
MSCOCOとWikimediaのデータセットのキャプションから生成された画像は、安定拡散とGLIDEの2つの最先端モデルを用いて検討する。
実験の結果, 単純なマルチ層パーセプトロンを用いて生成した画像を検出することができることがわかった。
関連したテキスト情報を画像に組み込むと、検出結果が大幅に改善されることは滅多にない。
論文 参考訳(メタデータ) (2023-03-09T14:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。