論文の概要: CINEMAE: Leveraging Frozen Masked Autoencoders for Cross-Generator AI Image Detection
- arxiv url: http://arxiv.org/abs/2511.06325v1
- Date: Sun, 09 Nov 2025 11:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.886094
- Title: CINEMAE: Leveraging Frozen Masked Autoencoders for Cross-Generator AI Image Detection
- Title(参考訳): CINEMAE: クロスジェネレータAI画像検出のための冷凍マズードオートエンコーダの活用
- Authors: Minsuk Jang, Hyeonseo Jeong, Minseok Son, Changick Kim,
- Abstract要約: CINEMAEはテキスト検出法の中核となる原則を視覚領域に適用する。
我々は、安定拡散v1.4のみをトレーニングし、GenImageベンチマークの8つの未知のジェネレータに対して95%以上の精度を達成した。
このことは、文脈条件の再構成の不確実性が、AIGC検出のための堅牢で転送可能な信号を提供することを示している。
- 参考スコア(独自算出の注目度): 25.84217122259626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While context-based detectors have achieved strong generalization for AI-generated text by measuring distributional inconsistencies, image-based detectors still struggle with overfitting to generator-specific artifacts. We introduce CINEMAE, a novel paradigm for AIGC image detection that adapts the core principles of text detection methods to the visual domain. Our key insight is that Masked AutoEncoder (MAE), trained to reconstruct masked patches conditioned on visible context, naturally encodes semantic consistency expectations. We formalize this reconstruction process probabilistically, computing conditional Negative Log-Likelihood (NLL, p(masked | visible)) to quantify local semantic anomalies. By aggregating these patch-level statistics with global MAE features through learned fusion, CINEMAE achieves strong cross-generator generalization. Trained exclusively on Stable Diffusion v1.4, our method achieves over 95% accuracy on all eight unseen generators in the GenImage benchmark, substantially outperforming state-of-the-art detectors. This demonstrates that context-conditional reconstruction uncertainty provides a robust, transferable signal for AIGC detection.
- Abstract(参考訳): コンテキストベースの検出器は、分布の不整合を測定することで、AI生成テキストの強力な一般化を実現しているが、画像ベースの検出器は、ジェネレータ固有のアーティファクトへの過度な適合に苦慮している。
我々は,テキスト検出手法の中核となる原理を視覚領域に適用する,AIGC画像検出の新しいパラダイムであるCINEMAEを紹介する。
Masked AutoEncoder (MAE)は、目に見えるコンテキストで条件付けられたマスク付きパッチを再構築する訓練を受けており、セマンティックな一貫性の期待を自然にエンコードしています。
我々はこの再構成過程を確率論的に定式化し、局所的な意味的異常を定量化するために条件付き負の対数(NLL, p(masked | visible))を計算する。
CINEMAEは、これらのパッチレベルの統計データを学習融合によりグローバルなMAE特徴と集約することにより、強力なクロスジェネレータ一般化を実現する。
我々の手法は安定拡散v1.4を専門に訓練し、GenImageベンチマークの8つの未知のジェネレータで95%以上の精度を達成し、最先端の検出器を著しく上回っている。
このことは、文脈条件の再構成の不確実性が、AIGC検出のための堅牢で転送可能な信号を提供することを示している。
関連論文リスト
- Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - Bi-Level Optimization for Self-Supervised AI-Generated Face Detection [56.57881725223548]
両レベル最適化に基づくAI生成顔検出器の自己教師方式を提案する。
我々の検出器は、一級・二級の分類設定において、既存のアプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-30T16:38:29Z) - RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image Detectors [57.81012948133832]
本稿では,72kの多種多様かつ高い変換可能な対向例からなるRAID(Robust Evaluation of AI- generated Image Detectors)を提案する。
提案手法は,未知の検出器に高い成功率で転送する逆画像を生成する。
以上の結果から,現在最先端のAI生成画像検出器は,敵の例によって容易に認識できることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T14:16:00Z) - Breaking Latent Prior Bias in Detectors for Generalizable AIGC Image Detection [11.907536189598577]
現在のAIGC検出器は、トレーニングに使用される同じジェネレータで生成された画像に対してほぼ完璧な精度を達成するが、目に見えないジェネレータからの出力に一般化するのに苦労する。
検出器は、堅牢な生成アーティファクトを学ぶのではなく、初期ノイズベクトルから発生するパターンに関連するショートカットを学習する。
そこで我々は, 発電機の出力多様体に残る逆数例を生成するオン・マニフォールド・逆数訓練(OMAT)を提案する。
論文 参考訳(メタデータ) (2025-06-01T07:20:45Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - Towards Generalizable Forgery Detection and Reasoning [23.858913560970866]
We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - LADMIM: Logical Anomaly Detection with Masked Image Modeling in Discrete Latent Space [0.0]
マスク付き画像モデリングは、画像中のマスキング領域の特徴表現を予測する自己教師付き学習技術である。
本稿では,MIMの特性を利用して論理異常を効果的に検出する手法を提案する。
提案手法をMVTecLOCOデータセット上で評価し,平均AUC 0.867。
論文 参考訳(メタデータ) (2024-10-14T07:50:56Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。