論文の概要: FreqCross: A Multi-Modal Frequency-Spatial Fusion Network for Robust Detection of Stable Diffusion 3.5 Generated Images
- arxiv url: http://arxiv.org/abs/2507.02995v2
- Date: Tue, 08 Jul 2025 03:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.787023
- Title: FreqCross: A Multi-Modal Frequency-Spatial Fusion Network for Robust Detection of Stable Diffusion 3.5 Generated Images
- Title(参考訳): FreqCross: 安定拡散3.5画像のロバスト検出のためのマルチモード周波数空間融合ネットワーク
- Authors: Guang Yang,
- Abstract要約: FreqCrossは、空間的RGB特徴、周波数領域アーティファクト、放射エネルギー分布パターンを組み合わせた、新しいマルチモーダル融合ネットワークである。
1万対の実(MS-COCO)と合成(安定拡散3.5)のデータセットの実験では、FreqCrossの精度は97.8%である。
- 参考スコア(独自算出の注目度): 4.524282351757178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of diffusion models, particularly Stable Diffusion 3.5, has enabled the generation of highly photorealistic synthetic images that pose significant challenges to existing detection methods. This paper presents FreqCross, a novel multi-modal fusion network that combines spatial RGB features, frequency domain artifacts, and radial energy distribution patterns to achieve robust detection of AI-generated images. Our approach leverages a three-branch architecture: (1) a ResNet-18 backbone for spatial feature extraction, (2) a lightweight CNN for processing 2D FFT magnitude spectra, and (3) a multi-layer perceptron for analyzing radial energy profiles. We introduce a novel radial energy distribution analysis that captures characteristic frequency artifacts inherent in diffusion-generated images, and fuse it with spatial and spectral cues via simple feature concatenation followed by a compact classification head. Extensive experiments on a dataset of 10,000 paired real (MS-COCO) and synthetic (Stable Diffusion 3.5) images demonstrate that FreqCross achieves 97.8\% accuracy, outperforming state-of-the-art baselines by 5.2\%. The frequency analysis further reveals that synthetic images exhibit distinct spectral signatures in the 0.1--0.4 normalised frequency range, providing theoretical foundation for our approach. Code and pre-trained models are publicly available to facilitate reproducible research.
- Abstract(参考訳): 拡散モデルの急速な進歩、特に安定拡散3.5は、既存の検出方法に重大な課題をもたらす高光写実性合成画像の生成を可能にした。
本稿では、空間的RGB特徴、周波数領域アーティファクト、放射エネルギー分布パターンを組み合わせて、AI生成画像の堅牢な検出を実現する、新しいマルチモーダル融合ネットワークであるFreqCrossを提案する。
提案手法では,(1)空間特徴抽出用ResNet-18バックボーン,(2)2次元FFTスペクトル処理用軽量CNN,(3)放射エネルギープロファイル解析用多層パーセプトロンの3層アーキテクチャを利用する。
本稿では,拡散生成画像に固有の特徴周波数アーティファクトを抽出し,簡単な特徴結合による空間的およびスペクトル的手がかりと融合し,その後にコンパクトな分類ヘッドを付加する新しい放射エネルギー分布解析手法を提案する。
1万対の実(MS-COCO)と合成(安定拡散3.5)画像のデータセットに対する大規模な実験は、FreqCrossが97.8\%の精度で達成し、最先端のベースラインを5.2\%上回ることを示した。
周波数解析により, 0.1-0.4の周波数領域において, 合成画像が異なるスペクトルの符号を示すことが明らかとなり, 提案手法の理論的基礎となった。
コードと事前訓練されたモデルは、再現可能な研究を促進するために公開されている。
関連論文リスト
- Template-Fitting Meets Deep Learning: Redshift Estimation Using Physics-Guided Neural Networks [0.4416697929169138]
本稿では,物理誘導ニューラルネットワークを用いたテンプレートフィッティングとディープラーニングを統合したハイブリッド手法を提案する。
我々は、約40万個の銀河を含むPreMLデータセット上で、我々のモデルを評価した。
提案手法は, RMS誤差0.0507, 3シグマ破滅率0.13%, バイアス0.0028を達成する。
論文 参考訳(メタデータ) (2025-07-01T15:29:45Z) - Wideband RF Radiance Field Modeling Using Frequency-embedded 3D Gaussian Splatting [28.147938573798367]
広帯域無線周波数(RF)放射場モデリングのための3次元ガウススプラッティング(3DGS)アルゴリズムを提案する。
6室内環境における1GHzから100GHzまでの50000サンプルを含む大規模電力角スペクトル(PAS)データセットを提案する。
提案手法は, 平均構造類似度指標(SSIM)を最大0.72で達成し, 現在のSOTA法と比較して17.8%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-05-27T04:48:26Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - FCDM: A Physics-Guided Bidirectional Frequency Aware Convolution and Diffusion-Based Model for Sinogram Inpainting [14.043383277622874]
そこで本研究では,物理誘導型ノングラムインペイントフレームワークFCDMを提案する。
双方向周波数領域の畳み込みを統合して重なり合う特徴を解消し、物理インフォームド・ロスによる全吸収と周波数領域の一貫性を強制する。
合成および実世界のデータセットの実験では、FCDMは既存の手法より優れており、SSIMは0.95以上、PSNRは30dB以上、ベースラインは最大33%、29%改善している。
論文 参考訳(メタデータ) (2024-08-26T12:31:38Z) - Beyond the Visible: Jointly Attending to Spectral and Spatial Dimensions with HSI-Diffusion for the FINCH Spacecraft [2.5057561650768814]
FINCHミッションは、農地の作物の残留物を監視することを目的としている。
ハイパースペクトルイメージングは、スペクトル情報と空間情報の両方をキャプチャする。
ランダムノイズ、ストライプノイズ、デッドピクセルなど、様々な種類のノイズが生じる傾向がある。
論文 参考訳(メタデータ) (2024-06-15T19:34:18Z) - Diffusion Facial Forgery Detection [56.69763252655695]
本稿では,顔に焦点をあてた拡散生成画像を対象とした包括的データセットであるDiFFを紹介する。
人体実験といくつかの代表的な偽造検出手法を用いて,DiFFデータセットの広範な実験を行った。
その結果、人間の観察者と自動検出者の2値検出精度は30%以下であることが判明した。
論文 参考訳(メタデータ) (2024-01-29T03:20:19Z) - WaveNeRF: Wavelet-based Generalizable Neural Radiance Fields [149.2296890464997]
我々は、ウェーブレット周波数分解をMVSとNeRFに統合したWaveNeRFを設計する。
WaveNeRFは、3つの画像のみを入力として与えたときに、より優れた一般化可能な放射場モデリングを実現する。
論文 参考訳(メタデータ) (2023-08-09T09:24:56Z) - SAR-NeRF: Neural Radiance Fields for Synthetic Aperture Radar Multi-View
Representation [7.907504142396784]
本研究では、SARイメージング機構とニューラルネットワークを組み合わせることで、SAR画像生成のための新しいNeRFモデルを提案する。
SAR-NeRFは、ボクセルの減衰係数と散乱強度の分布を学習するために構築される。
その結果,SAR-NeRFオーグメンテーションデータセットは,数ショットの学習設定でSARターゲット分類性能を大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2023-07-11T07:37:56Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image
Fusion with Diffusion Models [54.952979335638204]
本稿では,Dif-Fusionと呼ばれる拡散モデルを用いて,マルチチャネル入力データの分布を生成する手法を提案する。
我々の手法は、特にカラー忠実度において、他の最先端画像融合法よりも効果的である。
論文 参考訳(メタデータ) (2023-01-19T13:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。