Fugu-MT 論文翻訳(概要): NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection

論文の概要: NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection

arxiv url: http://arxiv.org/abs/2508.01248v1
Date: Sat, 02 Aug 2025 07:58:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:21.783693
Title: NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection
Title（参考訳）: NS-Net:汎用AI生成画像検出のためのNULL空間を介してCLIPセマンティック情報を分離する
Authors: Jiazhen Yan, Fan Wang, Weiwei Jiang, Ziqiang Li, Zhangjie Fu,
Abstract要約: NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
参考スコア（独自算出の注目度）: 14.7077339945096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid progress of generative models, such as GANs and diffusion models, has facilitated the creation of highly realistic images, raising growing concerns over their misuse in security-sensitive domains. While existing detectors perform well under known generative settings, they often fail to generalize to unknown generative models, especially when semantic content between real and fake images is closely aligned. In this paper, we revisit the use of CLIP features for AI-generated image detection and uncover a critical limitation: the high-level semantic information embedded in CLIP's visual features hinders effective discrimination. To address this, we propose NS-Net, a novel detection framework that leverages NULL-Space projection to decouple semantic information from CLIP's visual features, followed by contrastive learning to capture intrinsic distributional differences between real and generated images. Furthermore, we design a Patch Selection strategy to preserve fine-grained artifacts by mitigating semantic bias caused by global image structures. Extensive experiments on an open-world benchmark comprising images generated by 40 diverse generative models show that NS-Net outperforms existing state-of-the-art methods, achieving a 7.4\% improvement in detection accuracy, thereby demonstrating strong generalization across both GAN- and diffusion-based image generation techniques.
Abstract（参考訳）: GANや拡散モデルなどの生成モデルの急速な進歩は、非常に現実的な画像の作成を促進し、セキュリティに敏感な領域での誤用に対する懸念が高まっている。既存の検出器は既知の生成条件下ではよく機能するが、特に実画像と偽画像のセマンティックコンテンツが密接に一致している場合、未知の生成モデルに一般化できないことが多い。本稿では、AI生成画像検出におけるCLIP機能の使用を再検討し、重要な制限を明らかにする。そこで我々は,NULL-Spaceプロジェクションを利用して,CLIPの視覚的特徴から意味情報を分離する新しい検出フレームワークNS-Netを提案する。さらに,大域的な画像構造による意味バイアスを緩和し,微細な人工物を保存するためのパッチ選択戦略を設計する。 40の多様な生成モデルによって生成された画像からなるオープンワールドベンチマークの大規模な実験により、NS-Netは既存の最先端手法よりも優れており、検出精度が7.4\%向上し、GANと拡散に基づく画像生成技術の両方で強力な一般化が示されている。

関連論文リスト

DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images [14.448350657613368]
DeeCLIPはAI生成画像を検出するための新しいフレームワークである。 DeeFuserは、高レベルと低レベルの機能を組み合わせたフュージョンモジュールである。 4クラスのProGANデータのみをトレーニングし,平均精度は89.90%に達した。
論文参考訳（メタデータ） (2025-04-28T15:06:28Z)
Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。 textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文参考訳（メタデータ） (2025-04-16T09:57:23Z)
Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文参考訳（メタデータ） (2025-04-15T10:42:25Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文参考訳（メタデータ） (2023-02-16T03:05:59Z)
Fusing Global and Local Features for Generalized AI-Synthesized Image Detection [31.35052580048599]
画像全体からのグローバル空間情報と,新しいパッチ選択モジュールによって選択されたパッチからの局所的な情報的特徴を結合する2分岐モデルを設計する。さまざまなオブジェクトと解像度を持つ19のモデルで合成された非常に多様なデータセットを収集し、モデルを評価する。
論文参考訳（メタデータ） (2022-03-26T01:55:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。