論文の概要: TAP into the Patch Tokens: Leveraging Vision Foundation Model Features for AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2604.26772v1
- Date: Wed, 29 Apr 2026 15:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.451246
- Title: TAP into the Patch Tokens: Leveraging Vision Foundation Model Features for AI-Generated Image Detection
- Title(参考訳): パッチトークンへのTAP:AI生成画像検出のためのビジョンファウンデーションモデル機能を活用する
- Authors: Ahmed Abdullah, Nikolas Ebert, Oliver Wasenmüller,
- Abstract要約: 我々は、複数の視覚基盤モデル(VFM)の総合的なベンチマークを示す。
完全生成されたAI画像とAI塗装画像を検出するためのアウト・オブ・ボックスの性能を評価する。
本稿では,出力トークンをグローバル表現に集約する可変アテンションプーリング(TAP)を利用して,分類器ヘッドの簡易な再設計を提案する。
- 参考スコア(独自算出の注目度): 0.10705399532413612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent methods demonstrate that large-scale pretrained models, such as CLIP vision transformers, effectively detect AI-generated images (AIGIs) from unseen generative models when used as feature extractors. Many state-of-the-art methods for AI-generated image detection build upon the original CLIP-ViT to enhance this generalization. Since CLIP's release, numerous vision foundation models (VFMs) have emerged, incorporating architectural improvements and different training paradigms. Despite these advances, their potential for AIGI detection and AI image forensics remains largely unexplored. In this work, we present a comprehensive benchmark across multiple VFM families, covering diverse pretraining objectives, input resolutions, and model scales. We systematically evaluate their out-of-the-box performance for detecting fully-generated AI-images and AI-inpainted images, and discover that the best model outperforms the original CLIP by more than 12% in accuracy, beating established approaches in the process. To fully leverage the features of a modern VFM, we propose a simple redesign of the classifier head by utilizing tunable attention pooling (TAP), which aggregates output tokens into a refined global representation. Integrating TAP with the latest VFMs yields substantial performance gains across several AIGI detection benchmarks, establishing a new state-of-the-art on two challenging benchmarks for in-the-wild detection of AI-generated and -inpainted images.
- Abstract(参考訳): 近年の手法では、CLIPビジョントランスフォーマーのような大規模事前学習モデルが、特徴抽出器として使用する場合、見えない生成モデルからAIGI(AIGI)を効果的に検出できることが示されている。
多くの最先端のAI生成画像検出手法がオリジナルのCLIP-ViT上に構築され、この一般化が強化されている。
CLIPのリリース以来、多くのビジョンファウンデーションモデル(VFM)が登場し、アーキテクチャの改善と異なるトレーニングパラダイムが取り入れられている。
これらの進歩にも拘わらず、AIGI検出とAI画像鑑定のポテンシャルはほとんど未解明のままである。
本研究では,複数のVFMファミリーを対象とした総合的なベンチマークを行い,様々な事前学習目標,入力解像度,モデルスケールについて検討する。
完全生成したAI画像とAIを塗布した画像を検出するためのアウト・オブ・ザ・ボックスの性能を体系的に評価し、最良のモデルが元のCLIPを12%以上の精度で上回り、その過程で確立されたアプローチを上回ります。
現代のVFMの特徴をフル活用するために,可変アテンションプーリング(TAP)を利用して,出力トークンを洗練されたグローバル表現に集約することで,分類器ヘッドを簡易に再設計する手法を提案する。
TAPと最新のVFMを統合することで、AIGI検出ベンチマーク間で大幅なパフォーマンス向上が達成され、AI生成画像と塗装画像の中間検出のための2つの挑戦的なベンチマークに、新たな最先端のベンチマークが確立された。
関連論文リスト
- Boosting Robust AIGI Detection with LoRA-based Pairwise Training [55.076681464804636]
現在のAIGI検出器はクリーンなデータセットで良好に動作しますが、その検出性能は"野生"に展開すると低下します。
本稿では,高度歪み下でのAIGIの堅牢な検出を実現するために,Lo-based Pairwise Training (RA) 戦略を提案する。
論文 参考訳(メタデータ) (2026-04-14T05:35:32Z) - Detecting AI-Generated Images via Distributional Deviations from Real Images [6.615773227400183]
ファインチューニング中に生成モデル固有のパターンを含むテクスチャ領域をマスクするテクスチャ・アウェア・マスキング(TAM)機構を導入する。
我々の手法は最小限の画像しか調整されず、既存の手法よりも大幅に優れており、2つのデータセットの平均精度は98.2%と94.6%に達する。
論文 参考訳(メタデータ) (2026-01-07T05:00:13Z) - Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective [80.10217707456046]
カメラメタデータを利用したAI生成画像検出のための自己教師型アプローチを提案する。
分類型EXIFタグを分類することにより,撮影画像のみに特徴抽出器を訓練する。
我々の検出器は、電界中のサンプルに対して強力な一般化と、一般的な良性イメージの摂動に対する堅牢性を提供する。
論文 参考訳(メタデータ) (2025-12-05T11:53:18Z) - Bi-Level Optimization for Self-Supervised AI-Generated Face Detection [56.57881725223548]
両レベル最適化に基づくAI生成顔検出器の自己教師方式を提案する。
我々の検出器は、一級・二級の分類設定において、既存のアプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-30T16:38:29Z) - Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images [70.49595920462579]
本研究は,AIGODIの品質評価と歪みを考慮したサリエンシ予測問題について検討する。
BLIP-2モデルに基づく共有エンコーダを用いた2つのモデルを提案する。
論文 参考訳(メタデータ) (2025-06-27T05:36:04Z) - MLEP: Multi-granularity Local Entropy Patterns for Universal AI-generated Image Detection [44.40575446607237]
AI生成画像(AIGI)を効果的に検出する手法が緊急に必要である。
マルチグラニュラリティ局所エントロピーパターン (MLEP) を提案する。
MLEPは、画像のセマンティクスを著しく破壊し、潜在的なコンテンツバイアスを低減しながら、次元とスケールの画素関係を包括的にキャプチャする。
論文 参考訳(メタデータ) (2025-04-18T14:50:23Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Detecting the Undetectable: Combining Kolmogorov-Arnold Networks and MLP for AI-Generated Image Detection [0.0]
本稿では,最先端な生成AIモデルによって生成された画像の堅牢な識別が可能な,新しい検出フレームワークを提案する。
従来の多層パーセプトロン(MLP)とセマンティックイメージ埋め込みを統合した分類システムを提案する。
論文 参考訳(メタデータ) (2024-08-18T06:00:36Z) - Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。
さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-06-21T10:33:09Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。