論文の概要: Dual Frequency Branch Framework with Reconstructed Sliding Windows Attention for AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2501.15253v2
- Date: Sun, 27 Jul 2025 06:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:45.347237
- Title: Dual Frequency Branch Framework with Reconstructed Sliding Windows Attention for AI-Generated Image Detection
- Title(参考訳): AI生成画像検出のためのリコンストラクトスライディングWindowsアテンションを用いたデュアル周波数分岐フレームワーク
- Authors: Jiazhen Yan, Ziqiang Li, Fan Wang, Ziwen He, Zhangjie Fu,
- Abstract要約: GAN(Generative Adversarial Networks)と拡散モデルにより、高度にリアルな合成画像の作成が可能になった。
GAN(Generative Adversarial Networks)と拡散モデルにより、高度にリアルな合成画像の作成が可能になった。
AI生成画像の検出は、重要な課題として浮上している。
- 参考スコア(独自算出の注目度): 12.523297358258345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Generative Adversarial Networks (GANs) and diffusion models has enabled the creation of highly realistic synthetic images, presenting significant societal risks, such as misinformation and deception. As a result, detecting AI-generated images has emerged as a critical challenge. Existing researches emphasize extracting fine-grained features to enhance detector generalization, yet they often lack consideration for the importance and interdependencies of internal elements within local regions and are limited to a single frequency domain, hindering the capture of general forgery traces. To overcome the aforementioned limitations, we first utilize a sliding window to restrict the attention mechanism to a local window, and reconstruct the features within the window to model the relationships between neighboring internal elements within the local region. Then, we design a dual frequency domain branch framework consisting of four frequency domain subbands of DWT and the phase part of FFT to enrich the extraction of local forgery features from different perspectives. Through feature enrichment of dual frequency domain branches and fine-grained feature extraction of reconstruction sliding window attention, our method achieves superior generalization detection capabilities on both GAN and diffusion model-based generative images. Evaluated on diverse datasets comprising images from 65 distinct generative models, our approach achieves a 2.13\% improvement in detection accuracy over state-of-the-art methods.
- Abstract(参考訳): GAN(Generative Adversarial Networks)と拡散モデルの急速な進歩により、高度に現実的な合成画像の作成が可能となり、誤情報や偽造などの社会的リスクが顕著になった。
その結果、AI生成画像の検出が重要な課題として浮上した。
既存の研究では、検出器の一般化を促進するためのきめ細かい特徴の抽出が強調されているが、局所領域における内部要素の重要性や相互依存性は考慮されていないことが多く、単一の周波数領域に限定されており、一般的な偽証跡の捕捉を妨げている。
上述の制限を克服するために、まずスライディングウィンドウを使用して、ローカルウィンドウへの注意機構を制限し、ウィンドウ内の特徴を再構築し、ローカル領域内の隣り合う内部要素間の関係をモデル化する。
そして、DWTの4つの周波数領域サブバンドとFFTの位相部分からなる2つの周波数領域分岐フレームワークを設計し、異なる視点から局所的なフォージェリー特徴の抽出を強化する。
GANと拡散モデルに基づく生成画像において、二重周波数領域の高機能化と再現窓の注意の微細化による特徴抽出により、より優れた一般化検出機能を実現する。
65個の異なる生成モデルの画像からなる多種多様なデータセットを評価した結果,最先端手法による検出精度は2.13倍に向上した。
関連論文リスト
- D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection [5.281969205292727]
現在のDeepfake検出方法は、異なるドメインにわたるアーティファクト情報を徹底的に探索することができない。
空間領域からアーティファクト手がかりの局所的な位置情報を捕捉する新しい双方向アテンションモジュールを提案する。
これにより、大域的かつ微妙な偽情報を含む、きめ細かい特徴の高周波情報を得ることができる。
論文 参考訳(メタデータ) (2025-03-21T14:31:33Z) - Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。
擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。
実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文 参考訳(メタデータ) (2024-12-18T13:03:00Z) - SuperGF: Unifying Local and Global Features for Visual Localization [13.869227429939423]
SuperGFは、画像マッチング固有のローカル機能を直接操作するトランスフォーマーベースの集約モデルである。
我々は,高密度でスパースな学習ベースや手作りの記述子など,様々なローカル特徴を用いたSuperGFの実装を提供する。
論文 参考訳(メタデータ) (2022-12-23T13:48:07Z) - GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection [29.118321046339656]
画像全体から複数スケールのグローバルな特徴と、AI合成画像検出のための情報パッチからの洗練されたローカル特徴を組み合わせることで、リッチで差別的な表現を学習するフレームワークを提案する。
GLFFは、マルチスケールの意味的特徴を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチの2つのブランチから情報を抽出する。
論文 参考訳(メタデータ) (2022-11-16T02:03:20Z) - Cross-Domain Local Characteristic Enhanced Deepfake Video Detection [18.430287055542315]
ディープフェイク検出はセキュリティ上の懸念から注目を集めている。
多くの検出器は、目に見えない操作を検出する際に正確な結果を得ることができない。
そこで我々は,より一般的なディープフェイクビデオ検出のための新しいパイプラインであるクロスドメインローカルフォレスティクスを提案する。
論文 参考訳(メタデータ) (2022-11-07T07:44:09Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Federated and Generalized Person Re-identification through Domain and
Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。
一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。
提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-05T09:15:13Z) - An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot
Learning [77.72330187258498]
エントロピー誘導強化部分畳み込みネットワーク(ERPCNet)を提案する。
ERPCNetは、人間のアノテーションのない意味的関連性と視覚的相関に基づいて、局所性を抽出し、集約する。
グローバルな協力的局所性を動的に発見するだけでなく、ポリシー勾配最適化のためにより高速に収束する。
論文 参考訳(メタデータ) (2021-11-03T11:13:13Z) - Local Relation Learning for Face Forgery Detection [73.73130683091154]
局所的関係学習による顔の偽造検出の新たな視点を提案する。
具体的には,局所的な特徴間の類似度を測定するMPSM(Multi-scale Patch similarity Module)を提案する。
また、より包括的な局所特徴表現のために、RGBおよび周波数領域の情報を融合するRGB-Frequency Attention Module (RFAM)を提案する。
論文 参考訳(メタデータ) (2021-05-06T10:44:32Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。