論文の概要: Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios
- arxiv url: http://arxiv.org/abs/2509.09172v1
- Date: Thu, 11 Sep 2025 06:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.245965
- Title: Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios
- Title(参考訳): 理想と実世界の評価のギャップを埋める: カオスシナリオにおけるAI生成画像検出のベンチマーク
- Authors: Chunxiao Li, Xiaoxiao Wang, Meiling Li, Boming Miao, Peng Sun, Yunjian Zhang, Xiangyang Ji, Yao Zhu,
- Abstract要約: 本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。
RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。
我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
- 参考スコア(独自算出の注目度): 54.07895223545793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of generative models, highly realistic image synthesis has posed new challenges to digital security and media credibility. Although AI-generated image detection methods have partially addressed these concerns, a substantial research gap remains in evaluating their performance under complex real-world conditions. This paper introduces the Real-World Robustness Dataset (RRDataset) for comprehensive evaluation of detection models across three dimensions: 1) Scenario Generalization: RRDataset encompasses high-quality images from seven major scenarios (War and Conflict, Disasters and Accidents, Political and Social Events, Medical and Public Health, Culture and Religion, Labor and Production, and everyday life), addressing existing dataset gaps from a content perspective. 2) Internet Transmission Robustness: examining detector performance on images that have undergone multiple rounds of sharing across various social media platforms. 3) Re-digitization Robustness: assessing model effectiveness on images altered through four distinct re-digitization methods. We benchmarked 17 detectors and 10 vision-language models (VLMs) on RRDataset and conducted a large-scale human study involving 192 participants to investigate human few-shot learning capabilities in detecting AI-generated images. The benchmarking results reveal the limitations of current AI detection methods under real-world conditions and underscore the importance of drawing on human adaptability to develop more robust detection algorithms.
- Abstract(参考訳): 生成モデルの急速な進歩により、高度に現実的な画像合成は、デジタルセキュリティとメディアの信頼性に新たな課題をもたらしている。
AI生成画像検出手法はこれらの懸念に部分的に対処しているが, 複雑な実環境下での性能評価において, かなりの研究ギャップが残っている。
実世界ロバストネスデータセット(RRDataset:Real-World Robustness Dataset)を紹介する。
1)シナリオの一般化:RRDatasetは、7つの主要なシナリオ(戦争・紛争・災害・事故・政治・社会イベント・医療・公衆衛生・文化・宗教・労働・生産・日常生活)から高品質なイメージを包含し、コンテンツの観点から既存のデータセットギャップに対処する。
2)インターネット・トランスミッション・ロバストネス:様々なソーシャルメディア・プラットフォーム上で複数回共有された画像の検出器性能を調べる。
3)再デジタル化ロバストネス:4つの異なる再デジタル化手法により変化した画像におけるモデルの有効性を評価する。
我々は、RRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、192人の参加者による大規模な人間による研究を行い、AI生成画像の検出において、人間の数発学習能力を調査した。
ベンチマークの結果は、現実の条件下での現在のAI検出方法の限界を明らかにし、より堅牢な検出アルゴリズムを開発するための人間の適応性への描画の重要性を強調している。
関連論文リスト
- Navigating the Challenges of AI-Generated Image Detection in the Wild: What Truly Matters? [9.916527862912941]
我々は、主要なソーシャルメディアプラットフォームから収集された実画像とAI生成画像の新しいデータセットであるITW-SMを紹介する。
実世界のシナリオにおけるAID性能に影響を与える4つの要因を同定する。
我々の修正は、実環境下での様々なAIDモデルに対して平均26.87%のAUC改善をもたらす。
論文 参考訳(メタデータ) (2025-07-14T12:56:55Z) - RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image Detectors [57.81012948133832]
本稿では,72kの多種多様かつ高い変換可能な対向例からなるRAID(Robust Evaluation of AI- generated Image Detectors)を提案する。
提案手法は,未知の検出器に高い成功率で転送する逆画像を生成する。
以上の結果から,現在最先端のAI生成画像検出器は,敵の例によって容易に認識できることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T14:16:00Z) - So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - Is Artificial Intelligence Generated Image Detection a Solved Problem? [10.839070838139401]
AIGIBenchは、最先端AIGI検出器の堅牢性と一般化能力を厳格に評価するために設計されたベンチマークである。
これには、高度な画像生成技術と広く採用されている画像生成技術の両方にまたがる、23の多様なフェイクイメージサブセットが含まれている。
11個の先進検出器の実験では、制御された設定で高い精度が報告されているにもかかわらず、これらの検出器は実世界のデータに大きな性能低下を被ることを示した。
論文 参考訳(メタデータ) (2025-05-18T10:00:39Z) - D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。