論文の概要: Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable
- arxiv url: http://arxiv.org/abs/2505.14359v1
- Date: Tue, 20 May 2025 13:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.268185
- Title: Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable
- Title(参考訳): デュアルデータアライメントにより、AI生成画像検出器の一般化が容易になる
- Authors: Ruoxin Chen, Junwei Xi, Zhiyuan Yan, Ke-Yue Zhang, Shuang Wu, Jingyi Xie, Xu Chen, Lei Xu, Isabel Guan, Taiping Yao, Shouhong Ding,
- Abstract要約: バイアス付きデータセットでしばしば訓練される検出器は、実・合成ラベルと急激な相関がある。
本稿では,DDA(Dual Data Alignment)を提案する。
また、DDA-COCOとEvalGENの2つの新しいテストセットを導入し、検出器を評価するための最新の生成モデルを紹介した。
- 参考スコア(独自算出の注目度): 39.78385109313679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing detectors are often trained on biased datasets, leading to the possibility of overfitting on non-causal image attributes that are spuriously correlated with real/synthetic labels. While these biased features enhance performance on the training data, they result in substantial performance degradation when applied to unbiased datasets. One common solution is to perform dataset alignment through generative reconstruction, matching the semantic content between real and synthetic images. However, we revisit this approach and show that pixel-level alignment alone is insufficient. The reconstructed images still suffer from frequency-level misalignment, which can perpetuate spurious correlations. To illustrate, we observe that reconstruction models tend to restore the high-frequency details lost in real images (possibly due to JPEG compression), inadvertently creating a frequency-level misalignment, where synthetic images appear to have richer high-frequency content than real ones. This misalignment leads to models associating high-frequency features with synthetic labels, further reinforcing biased cues. To resolve this, we propose Dual Data Alignment (DDA), which aligns both the pixel and frequency domains. Moreover, we introduce two new test sets: DDA-COCO, containing DDA-aligned synthetic images for testing detector performance on the most aligned dataset, and EvalGEN, featuring the latest generative models for assessing detectors under new generative architectures such as visual auto-regressive generators. Finally, our extensive evaluations demonstrate that a detector trained exclusively on DDA-aligned MSCOCO could improve across 8 diverse benchmarks by a non-trivial margin, showing a +7.2% on in-the-wild benchmarks, highlighting the improved generalizability of unbiased detectors.
- Abstract(参考訳): 既存の検出器はしばしばバイアス付きデータセットに基づいて訓練され、実際の/合成ラベルと急激な相関を持つ非因果画像属性に過度に適合する可能性がある。
これらのバイアスのある機能はトレーニングデータのパフォーマンスを向上させるが、バイアスのないデータセットに適用すると、パフォーマンスが大幅に低下する。
1つの一般的な解決策は、生成的再構成を通じてデータセットアライメントを実行し、実画像と合成画像のセマンティック内容とを一致させることである。
しかし、このアプローチを再検討し、ピクセルレベルのアライメントだけでは不十分であることを示す。
再構成された画像は、未だに周波数レベルの不一致に悩まされており、急激な相関を持続させることができる。
そこで本研究では,合成画像が実画像よりもリッチな高周波コンテンツを持つような周波数レベルの不整合を意図せずに生成し,実画像で失われる高周波の詳細を復元する手法を提案する。
このミスアライメントは、高周波の特徴と合成ラベルを関連付けるモデルにつながり、バイアス付きキューをさらに強化する。
そこで我々はDDA(Dual Data Alignment)を提案する。
さらに、DDA-COCOは、最も整列したデータセット上で検出器性能をテストするためのDDA整列合成画像を含み、EvalGENは、視覚的自己回帰ジェネレータのような新しい生成アーキテクチャの下で検出器を評価するための最新の生成モデルを備えている。
最後に、我々は、DDA対応のMSCOCOに特化して訓練された検出器が、非自明なマージンで8つの異なるベンチマークで改善できることを示した。
関連論文リスト
- Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - A Bias-Free Training Paradigm for More General AI-generated Image Detection [15.421102443599773]
良く設計された法医学的検知器は、データバイアスを反映するのではなく、生成物固有のアーティファクトを検出する必要がある。
本稿では,実画像から偽画像を生成する,バイアスのない学習パラダイムであるB-Freeを提案する。
我々は,最先端検出器の一般化とロバスト性の両方において有意な改善が認められた。
論文 参考訳(メタデータ) (2024-12-23T15:54:32Z) - FakeInversion: Learning to Detect Images from Unseen Text-to-Image Models by Inverting Stable Diffusion [18.829659846356765]
本稿では,オープンソース事前学習型安定拡散モデルを用いて得られた特徴を用いた新しい合成画像検出器を提案する。
これらの逆転により、検出器は高視力の未確認発電機によく一般化できることが示される。
本稿では, 逆画像探索を用いて, 検出器評価におけるスタイリスティックおよびテーマバイアスを緩和する, 新たな挑戦的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-06-12T19:14:58Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Embedding contrastive unsupervised features to cluster in- and
out-of-distribution noise in corrupted image datasets [18.19216557948184]
Web画像検索に検索エンジンを使用することは、イメージデータセットを作成する際の手作業によるキュレーションに代わる誘惑的な手段である。
主な欠点は、回収された間違った(ノイズの多い)サンプルの割合である。
本稿では,教師なしのコントラスト特徴学習を用いた検出ステップから始める2段階のアルゴリズムを提案する。
比較学習のアライメントと均一性原理により,OODサンプルは単位超球面上のIDサンプルから線形に分離できることがわかった。
論文 参考訳(メタデータ) (2022-07-04T16:51:56Z) - Label Geometry Aware Discriminator for Conditional Generative Networks [40.89719383597279]
条件付きGenerative Adversarial Networks(GAN)は、目的のターゲットクラスで高画質の画像を生成することができます。
これらの合成画像は、画像分類などの下流監督タスクを改善するために必ずしも役に立たない。
論文 参考訳(メタデータ) (2021-05-12T08:17:25Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。