Fugu-MT 論文翻訳(概要): Dual Frequency Branch Framework with Reconstructed Sliding Windows Attention for AI-Generated Image Detection

論文の概要: Dual Frequency Branch Framework with Reconstructed Sliding Windows Attention for AI-Generated Image Detection

arxiv url: http://arxiv.org/abs/2501.15253v2
Date: Sun, 27 Jul 2025 06:19:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 14:15:45.347237
Title: Dual Frequency Branch Framework with Reconstructed Sliding Windows Attention for AI-Generated Image Detection
Title（参考訳）: AI生成画像検出のためのリコンストラクトスライディングWindowsアテンションを用いたデュアル周波数分岐フレームワーク
Authors: Jiazhen Yan, Ziqiang Li, Fan Wang, Ziwen He, Zhangjie Fu,
Abstract要約: GAN(Generative Adversarial Networks)と拡散モデルにより、高度にリアルな合成画像の作成が可能になった。 GAN(Generative Adversarial Networks)と拡散モデルにより、高度にリアルな合成画像の作成が可能になった。 AI生成画像の検出は、重要な課題として浮上している。
参考スコア（独自算出の注目度）: 12.523297358258345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of Generative Adversarial Networks (GANs) and diffusion models has enabled the creation of highly realistic synthetic images, presenting significant societal risks, such as misinformation and deception. As a result, detecting AI-generated images has emerged as a critical challenge. Existing researches emphasize extracting fine-grained features to enhance detector generalization, yet they often lack consideration for the importance and interdependencies of internal elements within local regions and are limited to a single frequency domain, hindering the capture of general forgery traces. To overcome the aforementioned limitations, we first utilize a sliding window to restrict the attention mechanism to a local window, and reconstruct the features within the window to model the relationships between neighboring internal elements within the local region. Then, we design a dual frequency domain branch framework consisting of four frequency domain subbands of DWT and the phase part of FFT to enrich the extraction of local forgery features from different perspectives. Through feature enrichment of dual frequency domain branches and fine-grained feature extraction of reconstruction sliding window attention, our method achieves superior generalization detection capabilities on both GAN and diffusion model-based generative images. Evaluated on diverse datasets comprising images from 65 distinct generative models, our approach achieves a 2.13\% improvement in detection accuracy over state-of-the-art methods.
Abstract（参考訳）: GAN(Generative Adversarial Networks)と拡散モデルの急速な進歩により、高度に現実的な合成画像の作成が可能となり、誤情報や偽造などの社会的リスクが顕著になった。その結果、AI生成画像の検出が重要な課題として浮上した。既存の研究では、検出器の一般化を促進するためのきめ細かい特徴の抽出が強調されているが、局所領域における内部要素の重要性や相互依存性は考慮されていないことが多く、単一の周波数領域に限定されており、一般的な偽証跡の捕捉を妨げている。上述の制限を克服するために、まずスライディングウィンドウを使用して、ローカルウィンドウへの注意機構を制限し、ウィンドウ内の特徴を再構築し、ローカル領域内の隣り合う内部要素間の関係をモデル化する。そして、DWTの4つの周波数領域サブバンドとFFTの位相部分からなる2つの周波数領域分岐フレームワークを設計し、異なる視点から局所的なフォージェリー特徴の抽出を強化する。 GANと拡散モデルに基づく生成画像において、二重周波数領域の高機能化と再現窓の注意の微細化による特徴抽出により、より優れた一般化検出機能を実現する。 65個の異なる生成モデルの画像からなる多種多様なデータセットを評価した結果,最先端手法による検出精度は2.13倍に向上した。

関連論文リスト

Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文参考訳（メタデータ） (2025-08-07T11:14:16Z)
NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文参考訳（メタデータ） (2025-08-02T07:58:15Z)
Towards Imperceptible JPEG Image Hiding: Multi-range Representations-driven Adversarial Stego Generation [19.5984577708016]
JPEG画像隠蔽のためのMRAGと呼ばれるマルチレンジ表現駆動型逆スチーゴ生成フレームワークを提案する。 MRAGは、畳み込みの局所レンジ特性と変換器のグローバルレンジモデリングを統合する。シュプロゲートステガナライザーの分類された特徴に基づいて、カバーとステゴ間の敵対的損失を計算する。
論文参考訳（メタデータ） (2025-07-11T06:45:07Z)
DSwinIR: Rethinking Window-based Attention for Image Restoration [109.38288333994407]
画像復元のための基盤となるバックボーンアーキテクチャとしてデフォルマブルスライディングウィンドウ変換器(DSwinIR)を提案する。 DSwinIRの中心には、Deformable Sliding Window (DSwin) Attentionという小説がある。大規模な実験により、DSwinIRは幅広い画像復元タスクに新しい最先端の技術を設定できることがわかった。
論文参考訳（メタデータ） (2025-04-07T09:24:41Z)
D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection [5.281969205292727]
現在のDeepfake検出方法は、異なるドメインにわたるアーティファクト情報を徹底的に探索することができない。空間領域からアーティファクト手がかりの局所的な位置情報を捕捉する新しい双方向アテンションモジュールを提案する。これにより、大域的かつ微妙な偽情報を含む、きめ細かい特徴の高周波情報を得ることができる。
論文参考訳（メタデータ） (2025-03-21T14:31:33Z)
Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文参考訳（メタデータ） (2024-12-18T13:03:00Z)
A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文参考訳（メタデータ） (2024-08-31T10:03:19Z)
DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文参考訳（メタデータ） (2024-06-03T16:13:33Z)
A Dual Domain Multi-exposure Image Fusion Network based on the Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文参考訳（メタデータ） (2023-12-17T04:45:15Z)
DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。 MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-12-11T18:38:28Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
SuperGF: Unifying Local and Global Features for Visual Localization [13.869227429939423]
SuperGFは、画像マッチング固有のローカル機能を直接操作するトランスフォーマーベースの集約モデルである。我々は,高密度でスパースな学習ベースや手作りの記述子など,様々なローカル特徴を用いたSuperGFの実装を提供する。
論文参考訳（メタデータ） (2022-12-23T13:48:07Z)
GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection [29.118321046339656]
画像全体から複数スケールのグローバルな特徴と、AI合成画像検出のための情報パッチからの洗練されたローカル特徴を組み合わせることで、リッチで差別的な表現を学習するフレームワークを提案する。 GLFFは、マルチスケールの意味的特徴を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチの2つのブランチから情報を抽出する。
論文参考訳（メタデータ） (2022-11-16T02:03:20Z)
Cross-Domain Local Characteristic Enhanced Deepfake Video Detection [18.430287055542315]
ディープフェイク検出はセキュリティ上の懸念から注目を集めている。多くの検出器は、目に見えない操作を検出する際に正確な結果を得ることができない。そこで我々は,より一般的なディープフェイクビデオ検出のための新しいパイプラインであるクロスドメインローカルフォレスティクスを提案する。
論文参考訳（メタデータ） (2022-11-07T07:44:09Z)
Adaptive Local-Component-aware Graph Convolutional Network for One-shot Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文参考訳（メタデータ） (2022-09-21T02:33:07Z)
Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-06T16:46:30Z)
Federated and Generalized Person Re-identification through Domain and Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-05T09:15:13Z)
An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot Learning [77.72330187258498]
エントロピー誘導強化部分畳み込みネットワーク(ERPCNet)を提案する。 ERPCNetは、人間のアノテーションのない意味的関連性と視覚的相関に基づいて、局所性を抽出し、集約する。グローバルな協力的局所性を動的に発見するだけでなく、ポリシー勾配最適化のためにより高速に収束する。
論文参考訳（メタデータ） (2021-11-03T11:13:13Z)
Local Relation Learning for Face Forgery Detection [73.73130683091154]
局所的関係学習による顔の偽造検出の新たな視点を提案する。具体的には,局所的な特徴間の類似度を測定するMPSM(Multi-scale Patch similarity Module)を提案する。また、より包括的な局所特徴表現のために、RGBおよび周波数領域の情報を融合するRGB-Frequency Attention Module (RFAM)を提案する。
論文参考訳（メタデータ） (2021-05-06T10:44:32Z)
Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。 vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文参考訳（メタデータ） (2021-04-29T14:14:11Z)
Change Detection in Synthetic Aperture Radar Images Using a Dual-Domain Network [33.50775914682585]
合成開口レーダ(SAR)画像からの変化検出は、重要かつ困難な作業です。既存の手法は主に空間領域の特徴抽出に焦点を当てており、周波数領域にはほとんど注意が払われていない。上記の2つの課題に取り組むためのデュアルドメインネットワークを提案します。
論文参考訳（メタデータ） (2021-04-14T08:41:48Z)
Gait Recognition via Effective Global-Local Feature Representation and Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-03T04:07:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。