CoDA: Color Distribution Probing for Efficient and Generalizable AI-Generated Image Detection
Abstractの概要
本論文は、汎化性と効率性の両方の制約下におけるAI生成画像検出について研究している。写真のようにリアルな画像でのモデル間転移だけでなく、モデル間およびドメイン間の両方の検出を評価するために設計された、62ドメインにわたる約37万枚の画像からなるベンチマーク「FakeForm」を導入している。著者らは、合成画像が実際の写真よりも不均一な色分布を示すことが多いと主張し、ノイズ注入と色量子化の条件下での安定性を測定する「ノイズ量子化プローブ」によってこれを定式化している。このアイデアに基づき、プローブ由来の色情報と画像特徴を融合させたコンパクトな二分岐検出器「CoDA」を提案し、プローブの応答と色分布の不規則性を結びつける理論的分析を提供している。
新規性
本研究は、ドメイン間のAI生成画像検出に向けた広範な新ベンチマークの提供と、意味的または周波数的特徴のみならず色分布プローブに基づいて構築された軽量検出器の提案という、2つの貢献を組み合わせている点で独自性がある。色の不均一性を露呈させるメカニズムとしてのノイズ量子化プローブに対する理論的アプローチも、この手がかりがなぜ異なる生成器間でも転移可能であるかについての原理的な説明として提示されている。
成果
標準的なベンチマークにおいて、CoDAはForenSynthsで98.2/99.6のAcc/AP、Ojhaの拡散ベンチマークで97.5/99.4、GenImageで95.9/99.1を記録した。FakeFormにおいては、写実的モードのモデル間評価で平均91.0/93.0のAcc/APを達成し、62ドメインにわたるドメイン間評価では報告された中で最高の平均77.7/88.1を達成した。この検出器は148万のパラメータを持ち、125.2 FPSで動作するためコンパクトで高速でありながら、一般的な画像摂動に対しても強い堅牢性を維持している。
論文の注目点
- FakeFormは、写真のようにリアルなモデル間テストだけでなく62の多様なドメインへ評価を拡張し、知覚的分析のための76万件以上の人間の評価を行っている。
- CoDAは、ノイズ量子化プローブを使用して色分布の不規則性を構造化された残差信号に変換し、軽量な二分岐ネットワークで標準的な視覚的特徴と統合する。
- 性能向上は困難なドメイン間設定で最も強力であったが、スケッチ風や技術的画像など、低彩色または特殊なドメインでは性能が低下することも論文で指摘されている。