論文の概要: When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2603.09242v1
- Date: Tue, 10 Mar 2026 06:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.095805
- Title: When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection
- Title(参考訳): AI生成画像検出のためのセマンティックショートカットのブロック
- Authors: Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren,
- Abstract要約: Vision Foundation Models (VFMs, emphe.g., CLIP) は、しばしば目に見えない生成パイプラインを使って生成された画像に一般化するのに苦労する。
textbfGeometric Semantic Decoupling (GSD)を提案する。
GSDはバッチワイズ統計から意味論的方向を推定し、幾何学的制約によってそれらを投影し、アーティファクト検出器は意味論的不変な法医学的証拠に依存するように強制する。
- 参考スコア(独自算出の注目度): 48.75021863792367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated image detection has become increasingly important with the rapid advancement of generative AI. However, detectors built on Vision Foundation Models (VFMs, \emph{e.g.}, CLIP) often struggle to generalize to images created using unseen generation pipelines. We identify, for the first time, a key failure mechanism, termed \emph{semantic fallback}, where VFM-based detectors rely on dominant pre-trained semantic priors (such as identity) rather than forgery-specific traces under distribution shifts. To address this issue, we propose \textbf{Geometric Semantic Decoupling (GSD)}, a parameter-free module that explicitly removes semantic components from learned representations by leveraging a frozen VFM as a semantic guide with a trainable VFM as an artifact detector. GSD estimates semantic directions from batch-wise statistics and projects them out via a geometric constraint, forcing the artifact detector to rely on semantic-invariant forensic evidence. Extensive experiments demonstrate that our method consistently outperforms state-of-the-art approaches, achieving 94.4\% video-level AUC (+\textbf{1.2\%}) in cross-dataset evaluation, improving robustness to unseen manipulations (+\textbf{3.0\%} on DF40), and generalizing beyond faces to the detection of synthetic images of general scenes, including UniversalFakeDetect (+\textbf{0.9\%}) and GenImage (+\textbf{1.7\%}).
- Abstract(参考訳): AI生成画像検出は、生成AIの急速な進歩によってますます重要になっている。
しかしながら、Vision Foundation Models (VFMs, \emph{e g }, CLIP) 上に構築された検出器は、しばしば目に見えない生成パイプラインを使って生成された画像に一般化するのに苦労する。
VFMをベースとした検出器は、分散シフトの下でのフォージェリー固有のトレースではなく、支配的な事前訓練されたセマンティック先行(アイデンティティなど)に依存している。
この問題に対処するために,学習表現から意味的コンポーネントを明示的に除去するパラメータフリーモジュールである \textbf{Geometric Semantic Decoupling (GSD) を提案する。
GSDはバッチワイズ統計から意味論的方向を推定し、幾何学的制約によってそれらを投影し、アーティファクト検出器は意味論的不変な法医学的証拠に依存するように強制する。
実験の結果,映像レベルのAUC(+\textbf{1.2\%})をクロスデータセット評価で達成し,非表示操作に対するロバスト性(+\textbf{3.0\%} on DF40)を向上し,UniversalFakeDetect(+\textbf{0.9\%})やGenImage(+\textbf{1.7\%})などの一般的なシーンの合成画像の検出に面を超えて一般化した。
関連論文リスト
- Detecting AI-Generated Images via Distributional Deviations from Real Images [6.615773227400183]
ファインチューニング中に生成モデル固有のパターンを含むテクスチャ領域をマスクするテクスチャ・アウェア・マスキング(TAM)機構を導入する。
我々の手法は最小限の画像しか調整されず、既存の手法よりも大幅に優れており、2つのデータセットの平均精度は98.2%と94.6%に達する。
論文 参考訳(メタデータ) (2026-01-07T05:00:13Z) - CINEMAE: Leveraging Frozen Masked Autoencoders for Cross-Generator AI Image Detection [25.84217122259626]
CINEMAEはテキスト検出法の中核となる原則を視覚領域に適用する。
我々は、安定拡散v1.4のみをトレーニングし、GenImageベンチマークの8つの未知のジェネレータに対して95%以上の精度を達成した。
このことは、文脈条件の再構成の不確実性が、AIGC検出のための堅牢で転送可能な信号を提供することを示している。
論文 参考訳(メタデータ) (2025-11-09T11:05:45Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Towards Generalizable Forgery Detection and Reasoning [23.858913560970866]
We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。