論文の概要: Rethinking the Use of Vision Transformers for AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2512.04969v1
- Date: Thu, 04 Dec 2025 16:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.275584
- Title: Rethinking the Use of Vision Transformers for AI-Generated Image Detection
- Title(参考訳): AI生成画像検出における視覚変換器の利用再考
- Authors: NaHyeon Park, Kunhee Kim, Junsuk Choe, Hyunjung Shim,
- Abstract要約: 我々は,複数のViT層の特徴をゲーティング機構を用いて動的に統合する,MOLDと呼ばれる新しい適応手法を提案する。
GANと拡散生成画像の両方の実験により、MOLDは検出性能を著しく改善し、様々な生成モデル間の一般化を高め、現実世界のシナリオにおいて堅牢性を示すことが示された。
- 参考スコア(独自算出の注目度): 30.35195934515703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rich feature representations derived from CLIP-ViT have been widely utilized in AI-generated image detection. While most existing methods primarily leverage features from the final layer, we systematically analyze the contributions of layer-wise features to this task. Our study reveals that earlier layers provide more localized and generalizable features, often surpassing the performance of final-layer features in detection tasks. Moreover, we find that different layers capture distinct aspects of the data, each contributing uniquely to AI-generated image detection. Motivated by these findings, we introduce a novel adaptive method, termed MoLD, which dynamically integrates features from multiple ViT layers using a gating-based mechanism. Extensive experiments on both GAN- and diffusion-generated images demonstrate that MoLD significantly improves detection performance, enhances generalization across diverse generative models, and exhibits robustness in real-world scenarios. Finally, we illustrate the scalability and versatility of our approach by successfully applying it to other pre-trained ViTs, such as DINOv2.
- Abstract(参考訳): CLIP-ViTから派生したリッチな特徴表現は、AI生成画像検出に広く利用されている。
既存のほとんどのメソッドは、ファイナルレイヤの機能を主に利用していますが、我々は、このタスクに対するレイヤワイズ機能のコントリビューションを体系的に分析します。
本研究により, 従来の層はより局所的で一般化可能な機能を提供し, 検出タスクにおける最終層機能を上回ることが判明した。
さらに、異なるレイヤがデータの異なる側面をキャプチャし、それぞれがAI生成画像検出に一意に寄与することがわかった。
これらの知見に触発されて,複数のViT層の特徴をゲーティング機構を用いて動的に統合する,MOLDと呼ばれる新しい適応手法を導入する。
GANおよび拡散生成画像の広汎な実験により、MOLDは検出性能を著しく向上し、様々な生成モデル間の一般化を高め、現実世界のシナリオにおいて堅牢性を示すことが示された。
最後に、DINOv2のような事前学習された他のViTに適用することで、我々のアプローチのスケーラビリティと汎用性について説明する。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - MLEP: Multi-granularity Local Entropy Patterns for Universal AI-generated Image Detection [44.40575446607237]
AI生成画像(AIGI)を効果的に検出する手法が緊急に必要である。
マルチグラニュラリティ局所エントロピーパターン (MLEP) を提案する。
MLEPは、画像のセマンティクスを著しく破壊し、潜在的なコンテンツバイアスを低減しながら、次元とスケールの画素関係を包括的にキャプチャする。
論文 参考訳(メタデータ) (2025-04-18T14:50:23Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - HyperDet: Generalizable Detection of Synthesized Images by Generating and Merging A Mixture of Hyper LoRAs [17.88153857572688]
我々はHyperDetと呼ばれる新しい、一般化可能な検出フレームワークを紹介した。
本研究では,画素とセマンティックアーティファクトを効果的にバランスさせる目的関数を提案する。
我々の研究は、事前訓練された大きな視覚モデルに基づいて、一般化可能なドメイン固有の偽画像検出器を確立する新しい方法である。
論文 参考訳(メタデータ) (2024-10-08T13:43:01Z) - DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。