論文の概要: Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2508.17877v1
- Date: Mon, 25 Aug 2025 10:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.734064
- Title: Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection
- Title(参考訳): 高精度AI生成画像検出のためのエッジ強化型ビジョントランスフレームワーク
- Authors: Dabbrata Das, Mahshar Yahan, Md Tareq Zaman, Md Rishadul Bayesh,
- Abstract要約: 本稿では,視覚変換器(ViT)と新たなエッジベース画像処理モジュールを組み合わせたハイブリッド検出フレームワークを提案する。
提案手法は,自動コンテンツ検証とデジタル法医学における実世界の応用に非常に適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of generative models has led to a growing prevalence of highly realistic AI-generated images, posing significant challenges for digital forensics and content authentication. Conventional detection methods mainly rely on deep learning models that extract global features, which often overlook subtle structural inconsistencies and demand substantial computational resources. To address these limitations, we propose a hybrid detection framework that combines a fine-tuned Vision Transformer (ViT) with a novel edge-based image processing module. The edge-based module computes variance from edge-difference maps generated before and after smoothing, exploiting the observation that AI-generated images typically exhibit smoother textures, weaker edges, and reduced noise compared to real images. When applied as a post-processing step on ViT predictions, this module enhances sensitivity to fine-grained structural cues while maintaining computational efficiency. Extensive experiments on the CIFAKE, Artistic, and Custom Curated datasets demonstrate that the proposed framework achieves superior detection performance across all benchmarks, attaining 97.75% accuracy and a 97.77% F1-score on CIFAKE, surpassing widely adopted state-of-the-art models. These results establish the proposed method as a lightweight, interpretable, and effective solution for both still images and video frames, making it highly suitable for real-world applications in automated content verification and digital forensics.
- Abstract(参考訳): 生成モデルの急速な進歩は、高度に現実的なAI生成画像の普及につながり、デジタル法医学とコンテンツ認証において重大な課題を提起している。
従来の検出手法は主にグローバルな特徴を抽出するディープラーニングモデルに依存しており、微妙な構造上の矛盾を見落とし、かなりの計算資源を必要とすることが多い。
これらの制約に対処するために、細調整された視覚変換器(ViT)と新しいエッジベース画像処理モジュールを組み合わせたハイブリッド検出フレームワークを提案する。
エッジベースのモジュールは、スムーズな前後で生成されたエッジ差マップからのばらつきを計算し、AI生成した画像が通常、実際の画像に比べてスムーズなテクスチャ、弱いエッジ、ノイズの低減を示すという観察を活用する。
ViT予測の処理後ステップとして適用されると、このモジュールは計算効率を保ちながらきめ細かな構造的手がかりに対する感度を高める。
CIFAKE、Arttic、Custom Curatedデータセットに関する大規模な実験は、提案されたフレームワークがすべてのベンチマークで優れた検出性能を達成し、CIFAKEの精度は97.75%、F1スコアは97.77%に達し、広く採用されている最先端モデルを上回っていることを示している。
これらの結果は、静止画とビデオフレームの両方に対して軽量で解釈可能で効果的なソリューションとして提案手法を確立し、自動コンテンツ検証やデジタル法医学における現実の応用に非常に適している。
関連論文リスト
- NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。
実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文 参考訳(メタデータ) (2025-08-02T07:58:15Z) - LAID: Lightweight AI-Generated Image Detection in Spatial and Spectral Domains [6.676901499867856]
現在の最先端AIGI検出方法は、大規模で深いニューラルネットワークアーキテクチャに依存している。
我々は、市販軽量ニューラルネットワークの検知性能と効率をベンチマークし、評価する最初のフレームワークであるLAIDを紹介する。
本研究は, 競合条件下であっても, 軽量モデルが競合精度を達成できることを実証する。
論文 参考訳(メタデータ) (2025-07-07T16:18:19Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - TextureCrop: Enhancing Synthetic Image Detection through Texture-based Cropping [12.315110846944906]
合成画像検出(SID)法は、オンラインのAI生成コンテンツを識別するために不可欠である。
我々は,事前学習した任意のSIDモデルにプラグインして,その性能を向上させるイメージ前処理コンポーネントであるTextureCropを提案する。
実験結果は、中央の収穫に比べてAUCが6.1%改善し、リサイズに比べて15%改善したことを示している。
論文 参考訳(メタデータ) (2024-07-22T09:31:30Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。
我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。
この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T11:17:46Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。