論文の概要: Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2603.10598v1
- Date: Wed, 11 Mar 2026 09:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.885692
- Title: Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection
- Title(参考訳): 層間整合性:一般化可能な合成画像検出のためのエレガント遅延遷移離散性
- Authors: Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang,
- Abstract要約: 実画像は、その潜在表現において一貫した意味的注意と構造的コヒーレンスを維持し、合成画像は識別可能なパターンを示す。
本稿では, 実画像と合成画像の層間一貫性の相違を捉えるために, LTD (Latent transition discrepancy) という新しいアプローチを提案する。
我々のアプローチは、GANとDMを含む3つのデータセットの平均Accを平均14.35%上回る。
- 参考スコア(独自算出の注目度): 15.935593506859043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent rapid advancement of generative models has significantly improved the fidelity and accessibility of AI-generated synthetic images. While enabling various innovative applications, the unprecedented realism of these synthetics makes them increasingly indistinguishable from authentic photographs, posing serious security risks, such as media credibility and content manipulation. Although extensive efforts have been dedicated to detecting synthetic images, most existing approaches suffer from poor generalization to unseen data due to their reliance on model-specific artifacts or low-level statistical cues. In this work, we identify a previously unexplored distinction that real images maintain consistent semantic attention and structural coherence in their latent representations, exhibiting more stable feature transitions across network layers, whereas synthetic ones present discernible distinct patterns. Therefore, we propose a novel approach termed latent transition discrepancy (LTD), which captures the inter-layer consistency differences of real and synthetic images. LTD adaptively identifies the most discriminative layers and assesses the transition discrepancies across layers. Benefiting from the proposed inter-layer discriminative modeling, our approach exceeds the base model by 14.35\% in mean Acc across three datasets containing diverse GANs and DMs. Extensive experiments demonstrate that LTD outperforms recent state-of-the-art methods, achieving superior detection accuracy, generalizability, and robustness. The code is available at https://github.com/yywencs/LTD
- Abstract(参考訳): 生成モデルの最近の急速な進歩により、AI生成合成画像の忠実度とアクセシビリティが大幅に向上した。
様々な革新的な応用を実現する一方で、これらの合成物の前例のない現実主義は、メディアの信頼性やコンテンツ操作といった深刻なセキュリティ上のリスクを生じさせる真の写真と区別しにくくなっている。
合成画像の検出に多大な努力が注がれているが、既存のアプローチのほとんどは、モデル固有のアーティファクトや低レベルの統計的手がかりに依存しているため、目に見えないデータへの一般化に苦しむ。
本研究では,実画像が潜在表現において一貫した意味的注意と構造的コヒーレンスを維持し,ネットワーク層間でより安定な特徴遷移を示すのに対して,合成画像は識別可能なパターンを示すという,これまで探索されていなかった特徴を識別する。
そこで本研究では, 実画像と合成画像の層間一貫性の相違を捉えるために, LTD (Latent transition discrepancy) という新しいアプローチを提案する。
LTDは最も差別的な層を適応的に識別し、層間の遷移の相違を評価する。
提案した層間識別モデルから得られた手法は,多様なGANとDMを含む3つのデータセットの平均Accを平均14.35 %超える。
広範囲な実験により、LTDは最近の最先端の手法よりも優れており、優れた検出精度、一般化可能性、堅牢性を実現している。
コードはhttps://github.com/ywencs/LTDで公開されている。
関連論文リスト
- Synthetic Image Detection with CLIP: Understanding and Assessing Predictive Cues [0.0]
CLIPベースの検出器は、強力な視覚的アーティファクトを単に検出するか、微妙なセマンティックバイアスを悪用するかは不明だ。
CLIPベースの検出器は、非相関なアクティベーションとテキストグラウンドの概念モデルを用いて、解釈可能な線形ヘッドを用いて何を学ぶかを分析する。
論文 参考訳(メタデータ) (2026-02-12T20:21:32Z) - INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts [0.0]
現在の法医学システムは、現実世界の条件下で急速に低下している。
ほとんどの検出器は不透明物として機能し、なぜ画像が合成物としてフラグ付けされるのかについての知見はほとんど得られない。
本稿では,AI生成画像のロバスト検出と透過的説明のための統合フレームワークであるINSIGHTを紹介する。
論文 参考訳(メタデータ) (2025-11-27T11:43:50Z) - Explainable Synthetic Image Detection through Diffusion Timestep Ensembling [30.298198387824275]
本稿では,複数の雑音の時間ステップでアンサンブルを訓練することにより,中間雑音画像の特徴を直接活用する合成画像検出手法を提案する。
人間の理解を深めるために,メートル法に基づく説明文生成と改良モジュールを導入する。
本手法は, 正解率98.91%, 正解率95.89%, 正解率95.89%, 正解率98.91%, 正解率95.89%である。
論文 参考訳(メタデータ) (2025-03-08T13:04:20Z) - SFLD: Reducing the content bias for AI-generated Image Detection [23.152346805893373]
新たなアプローチであるSFLDでは、高レベルの意味情報と低レベルのテクスチャ情報を統合するためにPatchShuffleが組み込まれている。
現在のベンチマークでは、画像品質の低下、コンテンツ保存の不十分、クラス多様性の制限といった課題に直面している。
そこで本研究では,実画像と合成画像のほぼ同一のペアを視覚的に構築するベンチマーク生成手法であるTwin Synthsを紹介する。
論文 参考訳(メタデータ) (2025-02-24T12:38:34Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive Learning [22.533225521726116]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語誘導型コントラスト学習を用いた簡易かつ効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。