論文の概要: Synthetic Image Detection with CLIP: Understanding and Assessing Predictive Cues
- arxiv url: http://arxiv.org/abs/2602.12381v1
- Date: Thu, 12 Feb 2026 20:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.736142
- Title: Synthetic Image Detection with CLIP: Understanding and Assessing Predictive Cues
- Title(参考訳): CLIPを用いた合成画像検出:予測キューの理解と評価
- Authors: Marco Willi, Melanie Mathys, Michael Graber,
- Abstract要約: CLIPベースの検出器は、強力な視覚的アーティファクトを単に検出するか、微妙なセマンティックバイアスを悪用するかは不明だ。
CLIPベースの検出器は、非相関なアクティベーションとテキストグラウンドの概念モデルを用いて、解釈可能な線形ヘッドを用いて何を学ぶかを分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent generative models produce near-photorealistic images, challenging the trustworthiness of photographs. Synthetic image detection (SID) has thus become an important area of research. Prior work has highlighted how synthetic images differ from real photographs--unfortunately, SID methods often struggle to generalize to novel generative models and often perform poorly in practical settings. CLIP, a foundational vision-language model which yields semantically rich image-text embeddings, shows strong accuracy and generalization for SID. Yet, the underlying relevant cues embedded in CLIP-features remain unknown. It is unclear, whether CLIP-based detectors simply detect strong visual artifacts or exploit subtle semantic biases, both of which would render them useless in practical settings or on generative models of high quality. We introduce SynthCLIC, a paired dataset of real photographs and high-quality synthetic counterparts from recent diffusion models, designed to reduce semantic bias in SID. Using an interpretable linear head with de-correlated activations and a text-grounded concept-model, we analyze what CLIP-based detectors learn. CLIP-based linear detectors reach 0.96 mAP on a GAN-based benchmark but only 0.92 on our high-quality diffusion dataset SynthCLIC, and generalization across generator families drops to as low as 0.37 mAP. We find that the detectors primarily rely on high-level photographic attributes (e.g., minimalist style, lens flare, or depth layering), rather than overt generator-specific artifacts. CLIP-based detectors perform well overall but generalize unevenly across diverse generative architectures. This highlights the need for continual model updates and broader training exposure, while reinforcing CLIP-based approaches as a strong foundation for more universal, robust SID.
- Abstract(参考訳): 最近の生成モデルは、写真の信頼性に挑戦する、近フォトリアリスティックな画像を生成する。
これにより、合成画像検出(SID)が重要な研究領域となっている。
これまでの研究では、合成画像が実際の写真とどう違うかを強調してきたが、残念なことに、SID法は、しばしば新しい生成モデルに一般化するのに苦労し、実用的な環境ではパフォーマンスが良くない。
CLIPは、意味的にリッチな画像テキストの埋め込みを生成する基礎的な視覚言語モデルであり、SIDの精度と一般化を示す。
しかし、CLIP-featuresに埋め込まれた根底にある関連する手がかりはいまだ不明である。
CLIPベースの検出器は、強力な視覚的アーティファクトを単に検出するか、微妙な意味的バイアスを悪用するかは定かではない。
我々は,SIDのセマンティックバイアスを低減するために,近年の拡散モデルから,実写真と高品質な合成画像のペアデータセットであるSynthCLICを紹介した。
解釈可能な線形ヘッドと非相関なアクティベーションとテキストグラウンドの概念モデルを用いて、CLIPベースの検出器が何を学習するかを分析する。
CLIPベースの線形検出器は、GANベースのベンチマークで0.96 mAPに達するが、私たちの高品質な拡散データセットSynthCLICではわずか0.92しかなく、ジェネレータファミリー間の一般化は0.37 mAPまで低下する。
検出器は主に、ジェネレータ固有のアーティファクトではなく、高レベルの写真特性(ミニマリストスタイル、レンズフレア、奥行き層など)に依存している。
CLIPベースの検出器は全体的によく機能するが、多種多様な生成アーキテクチャで不均一に一般化する。
これは、より普遍的で堅牢なSIDのための強力な基盤として、CLIPベースのアプローチを強化する一方で、継続的なモデル更新とより広範なトレーニング露出の必要性を強調している。
関連論文リスト
- Detecting AI-Generated Images via Distributional Deviations from Real Images [6.615773227400183]
ファインチューニング中に生成モデル固有のパターンを含むテクスチャ領域をマスクするテクスチャ・アウェア・マスキング(TAM)機構を導入する。
我々の手法は最小限の画像しか調整されず、既存の手法よりも大幅に優れており、2つのデータセットの平均精度は98.2%と94.6%に達する。
論文 参考訳(メタデータ) (2026-01-07T05:00:13Z) - AdaptPrompt: Parameter-Efficient Adaptation of VLMs for Generalizable Deepfake Detection [7.76090543025328]
画像生成の最近の進歩により、高度にリアルな合成メディアが普及し、信頼性の高いディープフェイク検出の難しさが高まっている。
重要な課題は一般化であり、限られた種類の発電機で訓練された検出器は、目に見えないモデルに直面すると失敗することが多い。
本稿では,大規模視覚言語モデル(特にCLIP)を活用して,多様な生成技術にまたがる合成内容の同定を行うことにより,一般化可能な検出の必要性に対処する。
論文 参考訳(メタデータ) (2025-12-19T16:06:03Z) - Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective [80.10217707456046]
カメラメタデータを利用したAI生成画像検出のための自己教師型アプローチを提案する。
分類型EXIFタグを分類することにより,撮影画像のみに特徴抽出器を訓練する。
我々の検出器は、電界中のサンプルに対して強力な一般化と、一般的な良性イメージの摂動に対する堅牢性を提供する。
論文 参考訳(メタデータ) (2025-12-05T11:53:18Z) - NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。
実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文 参考訳(メタデータ) (2025-08-02T07:58:15Z) - DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images [14.448350657613368]
DeeCLIPはAI生成画像を検出するための新しいフレームワークである。
DeeFuserは、高レベルと低レベルの機能を組み合わせたフュージョンモジュールである。
4クラスのProGANデータのみをトレーニングし,平均精度は89.90%に達した。
論文 参考訳(メタデータ) (2025-04-28T15:06:28Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。