論文の概要: Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning
- arxiv url: http://arxiv.org/abs/2508.01603v1
- Date: Sun, 03 Aug 2025 05:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.964447
- Title: Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning
- Title(参考訳): 画像適応型プロンプト学習によるAI生成画像の一般化に向けて
- Authors: Yiheng Li, Zichang Tan, Zhen Lei, Xu Zhou, Yang Yang,
- Abstract要約: 本稿では,多様なテスト画像の処理の柔軟性を向上する,画像適応型プロンプト学習(IAPL)という新しいフレームワークを提案する。
これは2つの適応モジュール、すなわち条件情報学習器と信頼駆動適応予測からなる。
実験の結果、IAPLは最先端のパフォーマンスを達成しており、95.61%と96.7%は広く使われているUniversalFakeDetectとGenImageの2つのデータセットの精度を示している。
- 参考スコア(独自算出の注目度): 30.415427474641813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major struggle for AI-generated image detection is identifying fake images from unseen generators. Existing cutting-edge methods typically customize pre-trained foundation models to this task via partial-parameter fine-tuning. However, these parameters trained on a narrow range of generators may fail to generalize to unknown sources. In light of this, we propose a novel framework named Image-Adaptive Prompt Learning (IAPL), which enhances flexibility in processing diverse testing images. It consists of two adaptive modules, i.e., the Conditional Information Learner and the Confidence-Driven Adaptive Prediction. The former employs CNN-based feature extractors to learn forgery-specific and image-specific conditions, which are then propagated to learnable tokens via a gated mechanism. The latter optimizes the shallowest learnable tokens based on a single test sample and selects the cropped view with the highest prediction confidence for final detection. These two modules enable the prompts fed into the foundation model to be automatically adjusted based on the input image, rather than being fixed after training, thereby enhancing the model's adaptability to various forged images. Extensive experiments show that IAPL achieves state-of-the-art performance, with 95.61% and 96.7% mean accuracy on two widely used UniversalFakeDetect and GenImage datasets, respectively.
- Abstract(参考訳): AI生成画像検出における大きな課題は、見えないジェネレータから偽画像を特定することだ。
既存の最先端の手法は、通常、部分パラメータの微調整によって、トレーニング済みの基礎モデルをこのタスクにカスタマイズする。
しかし、これらのパラメータは、限られた範囲のジェネレータで訓練され、未知のソースへの一般化に失敗する可能性がある。
そこで我々は,多様なテスト画像の処理の柔軟性を向上するIAPL(Image-Adaptive Prompt Learning)という新しいフレームワークを提案する。
これは2つの適応モジュール、すなわち条件情報学習器と信頼駆動適応予測から構成される。
前者はCNNベースの特徴抽出器を使用して、偽造と画像固有の条件を学習し、ゲート機構を介して学習可能なトークンに伝播する。
後者は、単一のテストサンプルに基づいて最も浅い学習可能なトークンを最適化し、最終検出のための最も高い予測信頼度で収穫されたビューを選択する。
これら2つのモジュールは、トレーニング後に固定されるのではなく、入力画像に基づいて基礎モデルに入力されたプロンプトを自動的に調整し、様々な偽画像へのモデルの適応性を高める。
広範囲にわたる実験の結果、IAPLは最先端のパフォーマンスを達成しており、95.61%と96.7%は広く使われているUniversalFakeDetectとGenImageの2つのデータセットでそれぞれ正確である。
関連論文リスト
- RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification [14.448350657613368]
RAVIDは、視覚検索強化生成(RAG)を活用するAI生成画像検出のための最初のフレームワークである
提案手法では,表現学習を改善するためにカテゴリ関連プロンプトを付加した細調整のCLIP画像エンコーダであるRAVID CLIPを利用する。
RAVIDの平均精度は80.27%で、最先端のC2P-CLIPでは63.44%である。
論文 参考訳(メタデータ) (2025-08-05T23:10:56Z) - Bi-Level Optimization for Self-Supervised AI-Generated Face Detection [56.57881725223548]
両レベル最適化に基づくAI生成顔検出器の自己教師方式を提案する。
我々の検出器は、一級・二級の分類設定において、既存のアプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-30T16:38:29Z) - FakeReasoning: Towards Generalizable Forgery Detection and Reasoning [24.8865218866598]
フォージェリ検出・推論タスク(FDR-Task)としてのAI生成画像の検出と説明のモデル化を提案する。
10つの生成モデルにわたる100K画像を含む大規模データセットであるMulti-Modal Forgery Reasoning dataset (MMFR-Dataset)を紹介する。
また、FakeReasoningという2つの重要なコンポーネントを持つ偽検出および推論フレームワークも提案する。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Origin Identification for Text-Guided Image-to-Image Diffusion Models [39.234894330025114]
テキスト誘導画像と画像の拡散モデル(ID$2$)の原点識別を提案する。
ID$2$の直接的な解決策は、クエリと参照イメージの両方から機能を抽出し比較するために、特別なディープ埋め込みモデルをトレーニングすることである。
提案したID$2$タスクのこの課題を解決するために,最初のデータセットと理論的に保証されたメソッドをコントリビュートする。
論文 参考訳(メタデータ) (2025-01-04T20:34:53Z) - Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。
事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。
ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文 参考訳(メタデータ) (2024-12-12T20:01:24Z) - Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文 参考訳(メタデータ) (2024-09-16T15:10:07Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。