論文の概要: When Semantics Regulate: Rethinking Patch Shuffle and Internal Bias for Generated Image Detection with CLIP
- arxiv url: http://arxiv.org/abs/2511.19126v1
- Date: Mon, 24 Nov 2025 13:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.235764
- Title: When Semantics Regulate: Rethinking Patch Shuffle and Internal Bias for Generated Image Detection with CLIP
- Title(参考訳): CLIPを用いた画像検出のためのパッチシャッフルと内部バイアスの再検討
- Authors: Beilin Chu, Weike You, Mengtao Li, Tingting Zheng, Kehan Zhao, Xuan Xu, Zhigao Lu, Jia Song, Moxuan Xu, Linna Zhou,
- Abstract要約: CLIPベースの検出器は、しばしばジェネレータアーティファクトではなくセマンティックキューに依存しており、分散シフト時の不安定なパフォーマンスをもたらす。
Patch Shuffleは、グローバルなセマンティックな連続性を阻害するCLIPに対して、非常に強力なメリットを提供する。
本稿では,セマンティックサブ空間を凍結し,人工物に敏感な層のみを適応させるセマンティック・アンタゴニスティックな微調整パラダイムであるSemAntiを提案する。
- 参考スコア(独自算出の注目度): 13.360123625878733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of GANs and Diffusion Models poses new challenges for detecting AI-generated images. Although CLIP-based detectors exhibit promising generalization, they often rely on semantic cues rather than generator artifacts, leading to brittle performance under distribution shifts. In this work, we revisit the nature of semantic bias and uncover that Patch Shuffle provides an unusually strong benefit for CLIP, that disrupts global semantic continuity while preserving local artifact cues, which reduces semantic entropy and homogenizes feature distributions between natural and synthetic images. Through a detailed layer-wise analysis, we further show that CLIP's deep semantic structure functions as a regulator that stabilizes cross-domain representations once semantic bias is suppressed. Guided by these findings, we propose SemAnti, a semantic-antagonistic fine-tuning paradigm that freezes the semantic subspace and adapts only artifact-sensitive layers under shuffled semantics. Despite its simplicity, SemAnti achieves state-of-the-art cross-domain generalization on AIGCDetectBenchmark and GenImage, demonstrating that regulating semantics is key to unlocking CLIP's full potential for robust AI-generated image detection.
- Abstract(参考訳): GANと拡散モデルの急速な進歩は、AI生成画像の検出に新たな課題をもたらす。
CLIPベースの検出器は有望な一般化を示すが、ジェネレータアーティファクトではなくセマンティックキューに依存することが多く、分散シフト時の不安定な性能をもたらす。
本研究では,セマンティックバイアスの性質を再考し,Patch Shuffleが局所的なアーティファクトの保存中にグローバルなセマンティック連続性を阻害し,自然画像と合成画像間の特徴分布を均質化するCLIPに異常に強力なメリットをもたらすことを明らかにする。
さらに,CLIPの深いセマンティック構造は,セマンティックバイアスが抑制されると,ドメイン間の表現を安定化するレギュレータとして機能することを示す。
これらの知見に導かれて,セマンティック・アンタゴリスティックな微調整パラダイムであるSemAntiを提案し,セマンティック・サブスペースを凍結し,シャッフルされたセマンティックスの下で人工物に敏感な層のみを適応させる。
その単純さにもかかわらず、SemAntiはAIGCDetectBenchmarkとGenImageで最先端のクロスドメインの一般化を実現し、セマンティクスの制御が、堅牢なAI生成イメージ検出のためのCLIPの潜在能力を解放する鍵であることを実証している。
関連論文リスト
- Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。
本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文 参考訳(メタデータ) (2025-11-01T06:51:14Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - GAMMA: Generalizable Alignment via Multi-task and Manipulation-Augmented Training for AI-Generated Image Detection [26.484706270778318]
本稿では,ドメインバイアスを低減し,セマンティックアライメントを強化するための新しいトレーニングフレームワークであるGAMMAを提案する。
多重分割ヘッドと分類ヘッドを併用したマルチタスク監視を採用し、様々な生成領域にまたがる画素レベルのソース属性を実現する。
提案手法は,GenImageベンチマークにおける最先端の一般化性能を実現し,精度を5.8%向上させるとともに,GPT-4oのような新たにリリースされた生成モデルに対する強靭性も維持する。
論文 参考訳(メタデータ) (2025-09-12T13:46:54Z) - Semantic-Aware Reconstruction Error for Detecting AI-Generated Images [22.83053631078616]
本稿では,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)を計測する新しい表現を提案する。
SAREは、さまざまな生成モデル間で偽画像を検出するための堅牢で差別的な機能を提供する。
また,SAREを背骨検出器に統合する融合モジュールを,クロスアテンション機構を介して導入する。
論文 参考訳(メタデータ) (2025-08-13T04:37:36Z) - NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。
実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文 参考訳(メタデータ) (2025-08-02T07:58:15Z) - Towards Imperceptible JPEG Image Hiding: Multi-range Representations-driven Adversarial Stego Generation [19.5984577708016]
JPEG画像隠蔽のためのMRAGと呼ばれるマルチレンジ表現駆動型逆スチーゴ生成フレームワークを提案する。
MRAGは、畳み込みの局所レンジ特性と変換器のグローバルレンジモデリングを統合する。
シュプロゲートステガナライザーの分類された特徴に基づいて、カバーとステゴ間の敵対的損失を計算する。
論文 参考訳(メタデータ) (2025-07-11T06:45:07Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - SLLEN: Semantic-aware Low-light Image Enhancement Network [92.80325772199876]
LLEメインネットワーク(LLEmN)とSS補助ネットワーク(SSaN)からなる意味認識型LLEネットワーク(SSLEN)を開発する。
現在利用可能なアプローチとは異なり、提案されているSLLENは、LLEを支援するためにIEF、HSF、SSデータセットなどのセマンティック情報を完全に読み取ることができる。
提案したSLLENと他の最先端技術との比較により,LLEの品質に対するSLLENの優位性が示された。
論文 参考訳(メタデータ) (2022-11-21T15:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。