論文の概要: Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution
- arxiv url: http://arxiv.org/abs/2511.16541v1
- Date: Thu, 20 Nov 2025 16:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.734627
- Title: Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution
- Title(参考訳): Few-Shot AIによる画像検出と属性検出のための教師付きコントラスト学習
- Authors: Jaime Álvarez Urueña, David Camacho, Javier Huertas Tato,
- Abstract要約: 本研究では,合成画像検出に固有の一般化問題に対処する新しい2段階検出フレームワークを提案する。
提案手法は,既存手法よりも5.2ポイント向上した平均検出精度91.3%を実現する。
- 参考スコア(独自算出の注目度): 3.103291412074661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative artificial intelligence has enabled the creation of synthetic images that are increasingly indistinguishable from authentic content, posing significant challenges for digital media integrity. This problem is compounded by the accelerated release cycle of novel generative models, which renders traditional detection approaches (reliant on periodic retraining) computationally infeasible and operationally impractical. This work proposes a novel two-stage detection framework designed to address the generalization challenge inherent in synthetic image detection. The first stage employs a vision deep learning model trained via supervised contrastive learning to extract discriminative embeddings from input imagery. Critically, this model was trained on a strategically partitioned subset of available generators, with specific architectures withheld from training to rigorously ablate cross-generator generalization capabilities. The second stage utilizes a k-nearest neighbors (k-NN) classifier operating on the learned embedding space, trained in a few-shot learning paradigm incorporating limited samples from previously unseen test generators. With merely 150 images per class in the few-shot learning regime, which are easily obtainable from current generation models, the proposed framework achieves an average detection accuracy of 91.3\%, representing a 5.2 percentage point improvement over existing approaches . For the source attribution task, the proposed approach obtains improvements of of 14.70\% and 4.27\% in AUC and OSCR respectively on an open set classification context, marking a significant advancement toward robust, scalable forensic attribution systems capable of adapting to the evolving generative AI landscape without requiring exhaustive retraining protocols.
- Abstract(参考訳): 生成人工知能の急速な進歩により、デジタルメディアの完全性にとって重要な課題である、真のコンテンツと区別できない合成画像の作成が可能になった。
この問題は、従来の検出手法(定期的な再訓練に頼っている)を計算的に実現不可能で運用的に不可能なものにする、新しい生成モデルの加速リリースサイクルによって複雑化されている。
本研究では,合成画像検出に固有の一般化課題に対処する新しい2段階検出フレームワークを提案する。
第1段階では、教師付きコントラスト学習を用いて訓練された視覚深層学習モデルを用いて、入力画像から識別的埋め込みを抽出する。
批判的に、このモデルは利用可能なジェネレータの戦略的に分割されたサブセットに基づいて訓練され、特定のアーキテクチャは、クロスジェネレータの一般化能力を厳格に強化するためにトレーニングを控えた。
第2段階では、学習された埋め込み空間で動作するk-nearest neighbors(k-NN)分類器を使用し、これまで見つからなかったテストジェネレータの限られたサンプルを組み込んだ数ショットの学習パラダイムで訓練されている。
現生モデルから容易に取得可能な,クラス毎の150個の画像しか取得できないため,提案手法は91.3\%の平均検出精度を達成し,既存手法よりも5.2ポイント向上した。
ソース属性タスクでは、AUCとOSCRのそれぞれ14.70\%と4.27\%の改善をオープンセットの分類コンテキストで達成し、徹底的なリトレーニングプロトコルを必要とせず、進化する生成AIのランドスケープに適応できる堅牢でスケーラブルな法医学的属性システムへの大きな進歩を示す。
関連論文リスト
- Image Tokenizer Needs Post-Training [76.91832192778732]
本稿では,遅延空間構築と復号化に着目した新しいトークン化学習手法を提案する。
具体的には,トークン化の堅牢性を大幅に向上させる,プラグアンドプレイ型トークン化学習手法を提案する。
生成したトークンと再構成されたトークンの分布差を軽減するために、よく訓練された生成モデルに関するトークン化デコーダをさらに最適化する。
論文 参考訳(メタデータ) (2025-09-15T21:38:03Z) - Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T12:09:11Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Mixture of Low-rank Experts for Transferable AI-Generated Image Detection [18.631006488565664]
生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。
本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。
事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
論文 参考訳(メタデータ) (2024-04-07T09:01:50Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - MENTOR: Human Perception-Guided Pretraining for Increased Generalization [4.737519767218666]
畳み込みニューラルネットワーク(CNN)のトレーニングに人間の知覚を活用することで、オープンセット認識タスクにおけるそのようなモデルの一般化能力が向上した。
本稿では,オープンセットの異常検出を行うCNNの2つの訓練ラウンドを通じて,この問題に対処するMENTORを紹介する。
MENTORは3つの異なるCNNバックボーンにまたがる一般化性能を,様々な異常検出タスクで向上させることを示す。
論文 参考訳(メタデータ) (2023-10-30T13:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。