論文の概要: Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning
- arxiv url: http://arxiv.org/abs/2508.01603v2
- Date: Mon, 29 Sep 2025 09:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.445374
- Title: Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning
- Title(参考訳): 画像適応型プロンプト学習によるAI生成画像の一般化に向けて
- Authors: Yiheng Li, Zichang Tan, Zhen Lei, Xu Zhou, Yang Yang,
- Abstract要約: 画像適応型プロンプト学習(IAPL)は、学習後に修正するのではなく、各入力画像に応じてプロンプトを調整する新しいパラダイムである。
IAPLは、広く使われているUniversalFakeDetectとGenImageデータセットで95.61%と96.7%の精度で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 33.269644831847636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In AI-generated image detection, current cutting-edge methods typically adapt pre-trained foundation models through partial-parameter fine-tuning. However, these approaches often struggle to generalize to forgeries from unseen generators, as the fine-tuned models capture only limited patterns from training data and fail to reflect the evolving traits of new ones. To overcome this limitation, we propose Image-Adaptive Prompt Learning (IAPL), a novel paradigm that dynamically adjusts the prompts fed into the encoder according to each input image, rather than fixing them after training. This design significantly enhances robustness and adaptability to diverse forged images. The dynamic prompts integrate conditional information with test-time adaptive tokens through a lightweight gated mechanism. The conditional information is produced by a Conditional Information Learner, which leverages CNN-based feature extractors to model both forgery-specific and image-specific conditions. The test-time adaptive tokens are optimized during inference on a single sample by enforcing prediction consistency across multiple views, ensuring that the parameters align with the current image. For the final decision, the cropped view with the highest prediction confidence is selected. Extensive experiments show that IAPL achieves state-of-the-art performance, with mean accuracies of 95.61% and 96.7% on the widely used UniversalFakeDetect and GenImage datasets, respectively. Codes and weights will be released on https://github.com/liyih/IAPL.
- Abstract(参考訳): AI生成画像検出では、現在の最先端の手法は、通常、部分パラメータの微調整によってトレーニング済みの基礎モデルに適応する。
しかし、これらのアプローチは、微調整されたモデルがトレーニングデータから限られたパターンのみをキャプチャし、新しいジェネレータの進化する特性を反映しないため、しばしば偽造を一般化するのに苦労する。
この制限を克服するために、トレーニング後に修正するのではなく、各入力画像に応じてエンコーダに入力されるプロンプトを動的に調整する新しいパラダイムである画像適応型プロンプト学習(IAPL)を提案する。
この設計は、多様な鍛造画像に対する堅牢性と適応性を著しく向上させる。
動的に条件情報をライトウェイトゲート機構を通じてテスト時間適応トークンと統合する。
条件情報は条件情報学習者によって生成され、CNNベースの特徴抽出器を利用して偽造特定条件と画像固有条件の両方をモデル化する。
テスト時間適応トークンは、複数のビューにまたがる予測一貫性を強制し、パラメータが現在のイメージと一致することを保証することにより、単一のサンプルに対する推論中に最適化される。
最終決定は、予測信頼度が最も高い収穫された視点を選択する。
広範囲にわたる実験の結果、IAPLは、広く使われているUniversalFakeDetectデータセットとGenImageデータセットでそれぞれ95.61%と96.7%の精度で最先端のパフォーマンスを達成した。
コードと重みはhttps://github.com/liyih/IAPL.comで公開される。
関連論文リスト
- RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification [14.448350657613368]
RAVIDは、視覚検索強化生成(RAG)を活用するAI生成画像検出のための最初のフレームワークである
提案手法では,表現学習を改善するためにカテゴリ関連プロンプトを付加した細調整のCLIP画像エンコーダであるRAVID CLIPを利用する。
RAVIDの平均精度は80.27%で、最先端のC2P-CLIPでは63.44%である。
論文 参考訳(メタデータ) (2025-08-05T23:10:56Z) - Bi-Level Optimization for Self-Supervised AI-Generated Face Detection [56.57881725223548]
両レベル最適化に基づくAI生成顔検出器の自己教師方式を提案する。
我々の検出器は、一級・二級の分類設定において、既存のアプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-30T16:38:29Z) - FakeReasoning: Towards Generalizable Forgery Detection and Reasoning [24.8865218866598]
フォージェリ検出・推論タスク(FDR-Task)としてのAI生成画像の検出と説明のモデル化を提案する。
10つの生成モデルにわたる100K画像を含む大規模データセットであるMulti-Modal Forgery Reasoning dataset (MMFR-Dataset)を紹介する。
また、FakeReasoningという2つの重要なコンポーネントを持つ偽検出および推論フレームワークも提案する。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Origin Identification for Text-Guided Image-to-Image Diffusion Models [39.234894330025114]
テキスト誘導画像と画像の拡散モデル(ID$2$)の原点識別を提案する。
ID$2$の直接的な解決策は、クエリと参照イメージの両方から機能を抽出し比較するために、特別なディープ埋め込みモデルをトレーニングすることである。
提案したID$2$タスクのこの課題を解決するために,最初のデータセットと理論的に保証されたメソッドをコントリビュートする。
論文 参考訳(メタデータ) (2025-01-04T20:34:53Z) - Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。
事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。
ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文 参考訳(メタデータ) (2024-12-12T20:01:24Z) - Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文 参考訳(メタデータ) (2024-09-16T15:10:07Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。