論文の概要: $\bf{D^3}$QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2510.05891v1
- Date: Tue, 07 Oct 2025 13:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.260055
- Title: $\bf{D^3}$QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection
- Title(参考訳): $\bf{D^3}$QE: 自己回帰画像検出のための離散分布離散型量子化誤差の学習
- Authors: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu,
- Abstract要約: 視覚的自己回帰(AR)モデルは、離散トークン予測を通じて画像を生成する。
本稿では,離散分布離散性を考慮した量子化誤差(D$3$QE)を自己回帰画像検出に活用することを提案する。
- 参考スコア(独自算出の注目度): 85.9202830503973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of visual autoregressive (AR) models has revolutionized image generation while presenting new challenges for synthetic image detection. Unlike previous GAN or diffusion-based methods, AR models generate images through discrete token prediction, exhibiting both marked improvements in image synthesis quality and unique characteristics in their vector-quantized representations. In this paper, we propose to leverage Discrete Distribution Discrepancy-aware Quantization Error (D$^3$QE) for autoregressive-generated image detection that exploits the distinctive patterns and the frequency distribution bias of the codebook existing in real and fake images. We introduce a discrete distribution discrepancy-aware transformer that integrates dynamic codebook frequency statistics into its attention mechanism, fusing semantic features and quantization error latent. To evaluate our method, we construct a comprehensive dataset termed ARForensics covering 7 mainstream visual AR models. Experiments demonstrate superior detection accuracy and strong generalization of D$^3$QE across different AR models, with robustness to real-world perturbations. Code is available at \href{https://github.com/Zhangyr2022/D3QE}{https://github.com/Zhangyr2022/D3QE}.
- Abstract(参考訳): 視覚自己回帰モデル(AR)の出現は、合成画像検出の新しい課題を提示しながら、画像生成に革命をもたらした。
従来のGANや拡散法とは異なり、ARモデルは離散トークン予測によって画像を生成し、画像合成の品質とベクトル量子化表現における特徴の両方を顕著に改善した。
本稿では、離散分布離散性を考慮した量子化誤差(D$^3$QE)を用いて、実画像および偽画像に存在するコードブックの固有パターンと周波数分布バイアスを利用する自動回帰画像検出手法を提案する。
本稿では、動的コードブックの周波数統計をその注意機構に統合し、意味的特徴と量子化誤りを解消する離散分布離散化対応変換器を提案する。
提案手法を評価するために,7つの主要な視覚的ARモデルをカバーするARForensicsと呼ばれる包括的データセットを構築した。
実験では、実世界の摂動に頑健な異なるARモデルに対して、より優れた検出精度とD$^3$QEの強力な一般化を示す。
コードは \href{https://github.com/Zhangyr2022/D3QE}{https://github.com/Zhangyr2022/D3QE} で公開されている。
関連論文リスト
- Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - The Deep Generative Decoder: MAP estimation of representations improves
modeling of single-cell RNA data [0.0]
モデルパラメータと表現を直接最大後部推定(MAP)により計算する単純な生成モデルを提案する。
このアプローチの利点は、その単純さと、同等のVAEよりもはるかに小さな次元の表現を提供する能力である。
論文 参考訳(メタデータ) (2021-10-13T12:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。