論文の概要: Fixed-Threshold Evaluation of a Hybrid CNN-ViT for AI-Generated Image Detection Across Photos and Art
- arxiv url: http://arxiv.org/abs/2512.21512v1
- Date: Thu, 25 Dec 2025 05:19:09 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:01:03.422296
- Title: Fixed-Threshold Evaluation of a Hybrid CNN-ViT for AI-Generated Image Detection Across Photos and Art
- Title(参考訳): 写真とアート間のAI生成画像検出のためのハイブリッドCNN-ViTの固定閾値評価
- Authors: Md Ashik Khan, Arafat Alam Jion,
- Abstract要約: クリーンな検証データに基づいて選択された決定しきい値を保持する固定閾値評価を導入し、すべての後処理変換に固定する。
AiDataアート/グラフィックでは91.4%の精度、AiDataアート/グラフィックでは89.7%の精度、CIFAKEでは98.3%(競争力)である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: AI image generators create both photorealistic images and stylized art, necessitating robust detectors that maintain performance under common post-processing transformations (JPEG compression, blur, downscaling). Existing methods optimize single metrics without addressing deployment-critical factors such as operating point selection and fixed-threshold robustness. This work addresses misleading robustness estimates by introducing a fixed-threshold evaluation protocol that holds decision thresholds, selected once on clean validation data, fixed across all post-processing transformations. Traditional methods retune thresholds per condition, artificially inflating robustness estimates and masking deployment failures. We report deployment-relevant performance at three operating points (Low-FPR, ROC-optimal, Best-F1) under systematic degradation testing using a lightweight CNN-ViT hybrid with gated fusion and optional frequency enhancement. Our evaluation exposes a statistically validated forensic-semantic spectrum: frequency-aided CNNs excel on pristine photos but collapse under compression (93.33% to 61.49%), whereas ViTs degrade minimally (92.86% to 88.36%) through robust semantic pattern recognition. Multi-seed experiments demonstrate that all architectures achieve 15% higher AUROC on artistic content (0.901-0.907) versus photorealistic images (0.747-0.759), confirming that semantic patterns provide fundamentally more reliable detection cues than forensic artifacts. Our hybrid approach achieves balanced cross-domain performance: 91.4% accuracy on tiny-genimage photos, 89.7% on AiArtData art/graphics, and 98.3% (competitive) on CIFAKE. Fixed-threshold evaluation eliminates retuning inflation, reveals genuine robustness gaps, and yields actionable deployment guidance: prefer CNNs for clean photo verification, ViTs for compressed content, and hybrids for art/graphics screening.
- Abstract(参考訳): AIイメージジェネレータは、フォトリアリスティック画像とスタイリングアートの両方を作成し、共通の後処理変換(JPEG圧縮、ボケ、ダウンスケーリング)でパフォーマンスを維持する堅牢な検出器を必要とする。
既存の方法は、運用ポイントの選択や固定閾値の堅牢性といったデプロイメントクリティカルな要素に対処することなく、単一のメトリクスを最適化する。
この研究は、すべての後処理変換で固定されたクリーンな検証データに基づいて1度選択された決定しきい値を保持する固定閾値評価プロトコルを導入することで、ロバスト性評価の誤解を招く。
従来の方法では、条件ごとのしきい値を再調整し、堅牢性の推定を人工的に膨らませ、デプロイメントの失敗を隠蔽する。
CNN-ViTハイブリッドを用いた系統劣化試験において, 3つの動作点(Low-FPR, ROC-optimal, Best-F1)における展開関連性能について報告する。
周波数支援CNNはプリスタン写真で排他的だが圧縮下では崩壊する(93.33%から61.49%)のに対し、ViTはロバストなセマンティックなパターン認識によって最小限に低下する(92.86%から88.36%)。
マルチシード実験により、すべてのアーキテクチャがアーティファクト(0.901-0.907)とフォトリアリスティックイメージ(0.747-0.759)で15%高いAUROCを達成し、セマンティックパターンが法医学的アーティファクトよりも根本的に信頼性の高い検出手段を提供することを確認した。
AiArtDataでは91.4%の精度、AiArtDataでは89.7%、CIFAKEでは98.3%である。
固定閾値評価は、インフレーションの調整を排除し、真の堅牢性ギャップを明らかにし、実用的なデプロイメントガイダンスを得る: クリーンな写真検証のためのCNN、圧縮されたコンテンツのためのViT、アート/グラフィックスクリーニングのためのハイブリッド。
関連論文リスト
- Detection of AI Generated Images Using Combined Uncertainty Measures and Particle Swarm Optimised Rejection Mechanism [1.8718443774434668]
本稿では,モデルの予測を信頼するか,拒否するかを決定するために,複数の不確実性対策を利用するロバスト検出フレームワークを提案する。
我々は,3つの補完的手法に注目した。フィッシャー情報,モンテカルロ・ドロップアウトからのエントロピーに基づく不確実性,およびDeep Kernel Learningフレームワークからの予測分散である。
その結果、マルチソース不確実性融合は、AI生成画像検出のためのレジリエントで適応的なソリューションを提供することを示した。
論文 参考訳(メタデータ) (2025-12-20T22:47:42Z) - Stylized Synthetic Augmentation further improves Corruption Robustness [4.206961078715932]
本稿では,合成画像データとニューラルスタイル転送を組み合わせたトレーニングデータ拡張パイプラインを提案する。
合成画像にスタイル転送を適用すると、一般的なFrechet Inception Distanceメトリックに対して品質が低下するが、これらの画像はモデルトレーニングに驚くほど有益であることを示す。
論文 参考訳(メタデータ) (2025-12-17T18:28:04Z) - On the Problem of Consistent Anomalies in Zero-Shot Industrial Anomaly Detection [0.0]
類似性計算から一貫した異常を識別・フィルタリングする新しいアルゴリズムであるConsistent-Anomaly Detection Graph (CoDeGraph)を導入する。
CoDeGraphはイメージレベルのグラフを構築し、イメージをノードとして、エッジを共通の一貫したアノマリーパターンで接続する。
ViT-L-14-336バックボーンを用いたMVTec ADの実験では、AUROCが98.3%、ASが66.8%であった。
論文 参考訳(メタデータ) (2025-10-12T05:28:28Z) - Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection [0.0]
本稿では,視覚変換器(ViT)と新たなエッジベース画像処理モジュールを組み合わせたハイブリッド検出フレームワークを提案する。
提案手法は,自動コンテンツ検証とデジタル法医学における実世界の応用に非常に適している。
論文 参考訳(メタデータ) (2025-08-25T10:30:56Z) - GRASP-PsONet: Gradient-based Removal of Spurious Patterns for PsOriasis Severity Classification [0.0]
本稿では,突発的な相関を導入し,問題のあるトレーニングイメージを自動的にフラグするフレームワークを提案する。
フラグ付き画像の8.2%は、保持されたテストセットでモデルAUC-ROCを5%(85%から90%)改善する。
2人の皮膚科医によって評価された訓練データのサブセットに適用した場合、この方法は、レイター間不一致の90%以上を識別する。
論文 参考訳(メタデータ) (2025-06-27T03:42:09Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。