論文の概要: SPARK-IL: Spectral Retrieval-Augmented RAG for Knowledge-driven Deepfake Detection via Incremental Learning
- arxiv url: http://arxiv.org/abs/2604.03833v1
- Date: Sat, 04 Apr 2026 19:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.787025
- Title: SPARK-IL: Spectral Retrieval-Augmented RAG for Knowledge-driven Deepfake Detection via Incremental Learning
- Title(参考訳): SPARK-IL:インクリメンタルラーニングによる知識駆動型ディープフェイク検出のためのスペクトル検索型RAG
- Authors: Hessen Bougueffa Eutamene, Abdellah Zakaria Sellam, Abdelmalik Taleb-Ahmed, Abdenour Hadid,
- Abstract要約: SPARK-ILは、二重パススペクトル分析と漸進学習を組み合わせた検索拡張フレームワークである。
UniversalFakeDetectベンチマークで、19の生成モデルで評価された。
- 参考スコア(独自算出の注目度): 6.901244434385347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting AI-generated images remains a significant challenge because detectors trained on specific generators often fail to generalize to unseen models; however, while pixel-level artifacts vary across models, frequency-domain signatures exhibit greater consistency, providing a promising foundation for cross-generator detection. To address this, we propose SPARK-IL, a retrieval-augmented framework that combines dual-path spectral analysis with incremental learning by utilizing a partially frozen ViT-L/14 encoder for semantic representations alongside a parallel path for raw RGB pixel embeddings. Both paths undergo multi-band Fourier decomposition into four frequency bands, which are individually processed by Kolmogorov-Arnold Networks (KAN) with mixture-of-experts for band-specific transformations before the resulting spectral embeddings are fused via cross-attention with residual connections. During inference, this fused embedding retrieves the $k$ nearest labeled signatures from a Milvus database using cosine similarity to facilitate predictions via majority voting, while an incremental learning strategy expands the database and employs elastic weight consolidation to preserve previously learned transformations. Evaluated on the UniversalFakeDetect benchmark across 19 generative models -- including GANs, face-swapping, and diffusion methods -- SPARK-IL achieves a 94.6\% mean accuracy, with the code to be publicly released at https://github.com/HessenUPHF/SPARK-IL.
- Abstract(参考訳): しかし、ピクセルレベルのアーティファクトはモデルによって異なるが、周波数領域のシグネチャはより一貫性を示し、クロスジェネレータ検出のための有望な基盤を提供する。
そこで本研究では,部分凍結したViT-L/14エンコーダを生RGB画素埋め込みの並列パスと併用することにより,二重パススペクトル解析と漸進学習を組み合わせた検索拡張フレームワークであるSPARK-ILを提案する。
どちらの経路も4つの周波数帯域に分解され、KAN(Kolmogorov-Arnold Networks)によって個別に処理される。
推測中、この融合埋め込みは、コサイン類似性を使用して、Milvusデータベースから最も近いラベル付きシグネチャを検索し、多数決による予測を促進する。
GAN、フェイススワッピング、拡散メソッドを含む19の生成モデルにわたるUniversalFakeDetectベンチマークで評価されたSPARK-ILの平均精度は94.6%で、https://github.com/HessenUPHF/SPARK-ILで公開される。
関連論文リスト
- Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。
提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-10-21T02:19:12Z) - Robust Spectral Fuzzy Clustering of Multivariate Time Series with Applications to Electroencephalogram [6.62414474989199]
スペクトル領域にファジィクラスタリングフレームワークを導入し、変数間の周波数特異なモノトニックな関係を抽出する。
本手法は、クラスタリング精度を向上させるために、周波数ベースのクロスリージョン接続パターンを優先的に活用する。
フラッグシップアプリケーションとして脳波記録を解析し,潜在認知状態の周波数・接続性特異的マーカーを明らかにする。
論文 参考訳(メタデータ) (2025-06-28T12:02:01Z) - Any-Resolution AI-Generated Image Detection by Spectral Learning [36.562914181733426]
我々は、実画像のスペクトル分布が、AI生成画像検出のための不変パターンと高識別パターンの両方を構成するというキーとなる考え方を構築した。
提案手法は, これまでの13の世代的アプローチと比較して, AUCの絶対的な改善を5.5%達成している。
論文 参考訳(メタデータ) (2024-11-28T23:55:19Z) - Wavelet-Driven Generalizable Framework for Deepfake Face Forgery Detection [0.0]
Wavelet-CLIPは、ウェーブレット変換とViT-L/14アーキテクチャに由来する機能を統合したディープフェイク検出フレームワークで、CLIP方式で事前トレーニングされている。
提案手法は,データ間一般化における平均AUC0.749,不明瞭なディープフェイクに対するロバスト性0.893を達成し,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-26T21:16:51Z) - Deep Learning Based Speckle Filtering for Polarimetric SAR Images. Application to Sentinel-1 [51.404644401997736]
本稿では、畳み込みニューラルネットワークを用いて偏光SAR画像のスペックルを除去するための完全なフレームワークを提案する。
実験により,提案手法はスペックル低減と分解能保存の両方において例外的な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-08-28T10:07:17Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。