論文の概要: How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study
- arxiv url: http://arxiv.org/abs/2602.07814v1
- Date: Sun, 08 Feb 2026 04:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.812049
- Title: How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study
- Title(参考訳): オープンソースで生成されたAIによる画像検出モデルは、どの程度うまく行っているか:総合的なベンチマーク
- Authors: Simiao Ren, Yuchen Zhou, Xingyu Shen, Kidus Zewde, Tommy Duong, George Huang, Hatsanai, Tiangratanakul, Tsang, Ng, En Wei, Jiayu Xue,
- Abstract要約: 普遍的な勝者は存在せず、検出器のランキングはかなり不安定である。
我々の発見は、全能検出器のパラダイムに挑戦した。
- 参考スコア(独自算出の注目度): 5.740397289924559
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As AI-generated images proliferate across digital platforms, reliable detection methods have become critical for combating misinformation and maintaining content authenticity. While numerous deepfake detection methods have been proposed, existing benchmarks predominantly evaluate fine-tuned models, leaving a critical gap in understanding out-of-the-box performance -- the most common deployment scenario for practitioners. We present the first comprehensive zero-shot evaluation of 16 state-of-the-art detection methods, comprising 23 pretrained detector variants (due to multiple released versions of certain detectors), across 12 diverse datasets, comprising 2.6~million image samples spanning 291 unique generators including modern diffusion models. Our systematic analysis reveals striking findings: (1)~no universal winner exists, with detector rankings exhibiting substantial instability (Spearman~$ρ$: 0.01 -- 0.87 across dataset pairs); (2)~a 37~percentage-point performance gap separates the best detector (75.0\% mean accuracy) from the worst (37.5\%); (3)~training data alignment critically impacts generalization, causing up to 20--60\% performance variance within architecturally identical detector families; (4)~modern commercial generators (Flux~Dev, Firefly~v4, Midjourney~v7) defeat most detectors, achieving only 18--30\% average accuracy; and (5)~we identify three systematic failure patterns affecting cross-dataset generalization. Statistical analysis confirms significant performance differences between detectors (Friedman test: $χ^2$=121.01, $p<10^{-16}$, Kendall~$W$=0.524). Our findings challenge the ``one-size-fits-all'' detector paradigm and provide actionable deployment guidelines, demonstrating that practitioners must carefully select detectors based on their specific threat landscape rather than relying on published benchmark performance.
- Abstract(参考訳): AIが生成した画像がデジタルプラットフォーム全体に拡散するにつれて、誤った情報に対処し、コンテンツの信頼性を維持するために信頼性の高い検出方法が重要になっている。
多数のディープフェイク検出方法が提案されているが、既存のベンチマークは主に微調整されたモデルを評価しており、実践者にとって最も一般的なデプロイメントシナリオであるアウト・オブ・ザ・ボックスのパフォーマンスを理解する上で重要なギャップを残している。
本報告では, 現代の拡散モデルを含む291個の発電機にまたがる2.6~100万枚の画像サンプルを含む12種類のデータセットに対して, 23種類の事前訓練された検出器(特定の検出器の複数リリースバージョンによる)を含む16種類の最先端検出手法の総合的ゼロショット評価を行った。
系統的な分析では,(1)有意な不安定性を示す検出器ランキング(Spearman~$ρ$: 0.01 -- 0.87),(2)-a 37~percentage-pointパフォーマンスギャップは,最高の検出器(75.0\%平均精度)を最悪の37.5\%から切り離し,(3)-トレーニングデータアライメントが一般化に重大な影響を与え,アーキテクチャ上同一の検出器群で最大20~60\%の性能ばらつきを引き起こすこと,(4)-モダンな商用発電機(Flux~Dev,Firefly~v4,Midjourney~v7)がほとんどの検出器を破り,平均18~30\%の精度しか達成できないこと,(5) の3つの系統的な障害パターンを同定した。
統計的解析により、検出器間の顕著な性能差が確認できる(Friedman test: $ ^2$=121.01, $p<10^{-16}$, Kendall~$ W$=0.524)。
本研究は,「全規模対応型検出器」のパラダイムに挑戦し,実践者は,ベンチマークのパフォーマンスに頼らず,特定の脅威状況に基づいた検出器を慎重に選択する必要があることを実証した。
関連論文リスト
- ForensicFormer: Hierarchical Multi-Scale Reasoning for Cross-Domain Image Forgery Detection [0.0]
ForensicFormerは階層的なフレームワークで、低レベルのアーティファクト検出、中レベルの境界解析、高レベルのセマンティック推論を統一する。
本手法は,従来の操作,GAN生成画像,拡散モデル出力にまたがる7種類のテストセットの平均精度を86.8%維持する。
論文 参考訳(メタデータ) (2026-01-12T04:29:36Z) - Evaluating Anomaly Detectors for Simulated Highly Imbalanced Industrial Classification Problems [1.376408511310322]
本稿では,問題に依存しないシミュレーションデータセットを用いて,異常検出アルゴリズムの総合評価を行う。
異常率0.05%から20%、トレーニングサイズ10000から10000のトレーニングデータセットにわたって14の検出器をベンチマークする。
以上の結果から,最高の検出器はトレーニングデータセットの欠陥例の総数に大きく依存していることが判明した。
論文 参考訳(メタデータ) (2025-12-07T03:49:54Z) - MIRAGE: Agentic Framework for Multimodal Misinformation Detection with Web-Grounded Reasoning [0.6475163438744868]
我々は、マルチモーダル検証を4つのシーケンシャルモジュールに分解する推論時モデルプラガブルエージェントフレームワークであるMIRAGEを提案する。
視覚的妥当性評価は、AI生成した画像を検出し、クロスモーダルな一貫性分析は、Webエビデンスにおけるアウト・オブ・コンテクストの再利用、検索強化された事実チェックの根拠を特定する。
MIRAGEは、ターゲットとするWeb検索、構造化された出力、引用リンクされた有理数を用いた視覚言語モデル推論をオーケストレーションする。
論文 参考訳(メタデータ) (2025-10-20T14:40:26Z) - Robust Distribution Alignment for Industrial Anomaly Detection under Distribution Shift [51.24522135151649]
異常検出は産業アプリケーションの品質管理において重要な役割を担っている。
既存の方法は、一般化可能なモデルをトレーニングすることで、ドメインシフトに対処しようとする。
提案手法は,最先端の異常検出法や領域適応法と比較して,優れた結果を示す。
論文 参考訳(メタデータ) (2025-03-19T05:25:52Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Multimodal Attack Detection for Action Recognition Models [24.585379549997743]
本稿では,任意の行動認識モデルに適合する新しいユニバーサル検出手法を提案する。
4つのアクション認識モデルをターゲットにした4つの最先端攻撃に対してテストされ、提案された検出器は16のテストケース平均0.911のAUCを達成する。
論文 参考訳(メタデータ) (2024-04-13T01:31:25Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Localization Uncertainty-Based Attention for Object Detection [8.154943252001848]
ガウスモデルを用いて, 4方向位置決めの不確かさを予測できる, より効率的な不確実性認識型高密度検出器 (UADET) を提案する。
MS COCOベンチマークを用いた実験によると、UADETはベースラインFCOSを一貫して上回り、最高のモデルであるResNext-64x4d-101-DCNは、COCOテストデーブで48.3%の単一スケールAPを得る。
論文 参考訳(メタデータ) (2021-08-25T04:32:39Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。