論文の概要: Brought a Gun to a Knife Fight: Modern VFM Baselines Outgun Specialized Detectors on In-the-Wild AI Image Detection
- arxiv url: http://arxiv.org/abs/2509.12995v1
- Date: Tue, 16 Sep 2025 12:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.070863
- Title: Brought a Gun to a Knife Fight: Modern VFM Baselines Outgun Specialized Detectors on In-the-Wild AI Image Detection
- Title(参考訳): 最新のVFMベースラインでAI画像検出機能搭載
- Authors: Yue Zhou, Xinan He, Kaiqing Lin, Bing Fan, Feng Ding, Jinhua Zeng, Bin Li,
- Abstract要約: 現代ビジョン基礎モデル(VFM)における単純な線形分類器を提案する。
同一データに基づいてトレーニングされたこのベースラインは、Wild内の精度を20%以上のマージンで決定的に向上させる。
我々は、このアライメントと全体的な精度の両方が、VFMの事前訓練されたカットオフ日後にスクラップされた新しいデータセットに急降下するため、データ露出によるものであると推測する。
1)AI生成画像検出の現実世界での銃撃戦では、更新されたVFMの生火力の方がはるかに効果的である。
- 参考スコア(独自算出の注目度): 15.904174133241762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While specialized detectors for AI-generated images excel on curated benchmarks, they fail catastrophically in real-world scenarios, as evidenced by their critically high false-negative rates on `in-the-wild' benchmarks. Instead of crafting another specialized `knife' for this problem, we bring a `gun' to the fight: a simple linear classifier on a modern Vision Foundation Model (VFM). Trained on identical data, this baseline decisively `outguns' bespoke detectors, boosting in-the-wild accuracy by a striking margin of over 20\%. Our analysis pinpoints the source of the VFM's `firepower': First, by probing text-image similarities, we find that recent VLMs (e.g., Perception Encoder, Meta CLIP2) have learned to align synthetic images with forgery-related concepts (e.g., `AI-generated'), unlike previous versions. Second, we speculate that this is due to data exposure, as both this alignment and overall accuracy plummet on a novel dataset scraped after the VFM's pre-training cut-off date, ensuring it was unseen during pre-training. Our findings yield two critical conclusions: 1) For the real-world `gunfight' of AI-generated image detection, the raw `firepower' of an updated VFM is far more effective than the `craftsmanship' of a static detector. 2) True generalization evaluation requires test data to be independent of the model's entire training history, including pre-training.
- Abstract(参考訳): AI生成画像の特殊検出器は、キュレートされたベンチマークで優れているが、実際のシナリオでは破滅的に失敗する。
この問題に対して別の専門的な「ナイフ」を作る代わりに、現代のビジョン財団モデル(VFM)上の単純な線形分類器である「ガン」を戦いに持ち込みます。
同じデータに基づいてトレーニングされたこのベースラインは、決定的に「アウトガンズ」のビースモーク検出器であり、20倍以上のマージンでその精度を高めた。
我々の分析は、VFMの「火力」の源泉を示唆している: まず、テキストと画像の類似性を探索することにより、最近のVLM(例えば、知覚エンコーダ、メタCLIP2)が、以前のバージョンとは異なり、合成画像と偽造関連概念(例えば、AI生成)を整列することを学んだ。
第2に、このアライメントと全体的な精度の両方が、VFMの事前トレーニングのカットオフ日にスクラップされた新しいデータセットに急降下し、事前トレーニング中に見つからないことが原因であると推測する。
以上の結果から2つの結論が得られた。
1)AI生成画像検出の現実的な「ガンファイト」では,更新されたVFMの生の「火力」は静的検出器の「職人技」よりもはるかに効果的である。
2)真の一般化評価には,事前学習を含むトレーニング履歴全体から独立したテストデータが必要である。
関連論文リスト
- ICAS: Detecting Training Data from Autoregressive Image Generative Models [38.1625974271413]
トレーニングデータ検出は、モデルトレーニングにおける不正なデータ使用を識別するための重要なタスクとして登場した。
我々はこの領域に会員推定を適用した最初の研究を行う。
我々の手法は、様々なデータ変換の下で強い堅牢性と一般化を示す。
論文 参考訳(メタデータ) (2025-07-07T14:50:42Z) - Adversarially Robust AI-Generated Image Detection for Free: An Information Theoretic Perspective [22.514709685678813]
我々は,AIGI検出において,対戦訓練(AT)がパフォーマンスの低下に悩まされていることを示す。
この差に触発されて,情報理論による無トレーニングロバスト検出(TRIM)を提案する。
TRIMは標準検出器上に構築され、予測エントロピーとKL分散を用いて特徴シフトを定量化する。
論文 参考訳(メタデータ) (2025-05-28T17:20:49Z) - A Bias-Free Training Paradigm for More General AI-generated Image Detection [15.421102443599773]
良く設計された法医学的検知器は、データバイアスを反映するのではなく、生成物固有のアーティファクトを検出する必要がある。
本稿では,実画像から偽画像を生成する,バイアスのない学習パラダイムであるB-Freeを提案する。
我々は,最先端検出器の一般化とロバスト性の両方において有意な改善が認められた。
論文 参考訳(メタデータ) (2024-12-23T15:54:32Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Vulnerabilities in AI-generated Image Detection: The Challenge of Adversarial Attacks [39.524974831780874]
FPBAはブラックボックス攻撃を成功させることができるので、敵攻撃はAIGI検出器にとって真の脅威であることを示す。
我々はこの手法を周波数ベースのポストトレインベイズアタック (FPBA) と呼ぶ。
論文 参考訳(メタデータ) (2024-07-30T14:07:17Z) - Data-Independent Operator: A Training-Free Artifact Representation
Extractor for Generalizable Deepfake Detection [105.9932053078449]
本研究では,より一般的な人工物表現を捉えるのに,小型かつトレーニング不要なフィルタが十分であることを示す。
トレーニングソースとテストソースの両方に不偏があるため、未確認ソースに対して魅力的な改善を実現するために、Data-Independent Operator (DIO)と定義する。
我々の検出器は13.3%の大幅な改善を実現し、新しい最先端の性能を確立した。
論文 参考訳(メタデータ) (2024-03-11T15:22:28Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。