論文の概要: Robust Deepfake Detection: Mitigating Spatial Attention Drift via Calibrated Complementary Ensembles
- arxiv url: http://arxiv.org/abs/2604.25889v1
- Date: Tue, 28 Apr 2026 17:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.977411
- Title: Robust Deepfake Detection: Mitigating Spatial Attention Drift via Calibrated Complementary Ensembles
- Title(参考訳): ロバストディープフェイク検出:キャリブレーションによる空間的注意ドリフトの緩和
- Authors: Minh-Khoa Le-Phan, Minh-Hoang Le, Trong-Le Do, Minh-Triet Tran,
- Abstract要約: 現在のディープフェイク検出モデルは、現実世界の複合劣化下での空間的注意の漂流に悩まされている。
本稿では, 極端な複合劣化エンジンと, 構造的に制約されたマルチストリームアーキテクチャを統合した基礎駆動型法科学フレームワークを提案する。
NTIRE 2026では,CVPRのロバストディープフェイク検出チャレンジで第4位を獲得した。
- 参考スコア(独自算出の注目度): 8.588817718552418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current deepfake detection models achieve state-of-the-art performance on pristine academic datasets but suffer severe spatial attention drift under real-world compound degradations, such as blurring and severe lossy compression. To address this vulnerability, we propose a foundation-driven forensic framework that integrates an extreme compound degradation engine with a structurally constrained, multi-stream architecture. During training, our degradation pipeline systematically destroys high-frequency artifacts, optimizing the DINOv2-Giant backbone to extract invariant geometric and semantic priors. We then process images through three specialized pathways: a Global Texture stream, a Localized Facial stream, and a Hybrid Semantic Fusion stream incorporating CLIP. Through analyzing spatial attribution via Score-CAM and feature stability using Cosine Similarity, we quantitatively demonstrate that these streams extract non-redundant, complementary feature representations and stabilize attention entropy. By aggregating these predictions via a calibrated, discretized voting mechanism, our ensemble successfully suppresses background attention drift while acting as a robust geometric anchor. Our approach yields highly stable zero-shot generalization, achieving Fourth Place in the NTIRE 2026 Robust Deepfake Detection Challenge at CVPR. Code is available at https://github.com/khoalephanminh/ntire26-deepfake-challenge.
- Abstract(参考訳): 現在のディープフェイク検出モデルは、原始的な学術データセット上で最先端のパフォーマンスを達成するが、ブラーリングや深刻な損失圧縮のような現実世界の複合劣化の下で、深刻な空間的注意の漂流に苦しむ。
この脆弱性に対処するために, 極端な複合劣化エンジンと, 構造的に制約されたマルチストリームアーキテクチャを統合する基盤駆動型法科学フレームワークを提案する。
DINOv2-Giantのバックボーンを最適化し、不変な幾何学的および意味論的先行要素を抽出する。
次に、CLIPを組み込んだGlobal Textureストリーム、Localized Facialストリーム、Hybrid Semantic Fusionストリームという3つの特殊な経路で画像を処理します。
空間属性をScore-CAMを用いて解析し,コサイン類似度を用いて特徴安定性を解析することにより,これらのストリームが非冗長で相補的特徴表現を抽出し,注意エントロピーを安定化することを示す。
これらの予測を校正・離散化投票機構によって集約することにより,我々のアンサンブルは,頑健な幾何学的アンカーとして機能しながら,背景からの注意のドリフトを抑制することに成功した。
NTIRE 2026では,CVPRのロバストディープフェイク検出チャレンジで第4位を獲得した。
コードはhttps://github.com/khoalephanminh/ntire26-deepfake-challengeで公開されている。
関連論文リスト
- DOC-GS: Dual-Domain Observation and Calibration for Reliable Sparse-View Gaussian Splatting [80.43237927269575]
本稿では,新しい視点からスパースビュー3DGSの再構築について再考する。
我々は、ガウスの原始的信頼性の観測不能性として、コアチャレンジを識別する。
この観測を動機として、レンダリング画像フレームワークにおける統合されたデュアルドメイン観測と幾何学的手法を提案する。
論文 参考訳(メタデータ) (2026-04-08T07:01:24Z) - ForensicFlow: A Tri-Modal Adaptive Network for Robust Deepfake Detection [0.0]
本稿では,ビデオディープフェイク検出のためのRGB,テクスチャ,周波数エビデンスを融合した3モーダル法医学フレームワークForensicFlowを紹介する。
Focal LossでCeleb-DF (v2)でトレーニングされたForensicFlowは、AUC 0.9752、F1-Score 0.9408、精度 0.9208を達成し、シングルストリームベースラインを上回っている。
論文 参考訳(メタデータ) (2025-11-18T14:56:34Z) - Flow-Matching Guided Deep Unfolding for Hyperspectral Image Reconstruction [53.26903617819014]
Flow-Matching-Guided Unfolding Network (FMU)は、最初にフローマッチングをHSI再構成に統合する。
学習力学をさらに強化するために,平均速度損失を導入する。
シミュレーションと実データの両方の実験により、FMUは復元品質において既存のアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-02T11:32:00Z) - Deep Equilibrium Convolutional Sparse Coding for Hyperspectral Image Denoising [16.405355853358202]
ハイパースペクトル画像(HSI)はリモートセンシングにおいて重要な役割を果たすが、複雑なノイズパターンによって劣化することが多い。
分解されたHSIの物理的特性の確保は、強靭なHSIの分解に不可欠であり、深層展開法が台頭する。
本研究では,局所的空間スペクトル相関,非局所的空間自己相似性,大域的空間一貫性を統一するDeep Equilibrium Convolutional Sparse Coding(DECSC)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T13:35:11Z) - JointSplat: Probabilistic Joint Flow-Depth Optimization for Sparse-View Gaussian Splatting [10.690965024885358]
スパースの観点から3Dシーンを再構築することは、幅広いアプリケーションにおいて長年にわたる課題である。
近年のフィードフォワード3Dガウスのスパースビュー再構成法は, リアルタイムな新規ビュー合成のための効率的な解法である。
光学的流れと深さの相補性を利用する統一的なフレームワークであるJointSplatを提案する。
論文 参考訳(メタデータ) (2025-06-04T12:04:40Z) - GC-ConsFlow: Leveraging Optical Flow Residuals and Global Context for Robust Deepfake Detection [23.05634856249282]
ディープフェイク技術は、高度にリアルに操作されたビデオの生成を可能にし、深刻な社会的および倫理的課題を提起している。
既存のディープフェイク検出方法は、主に空間的または時間的不整合に焦点を合わせ、両者の相互作用を無視した。
本稿では,空間的特徴と時間的特徴を効果的に統合し,堅牢なDeepfake検出を実現する新しい2重ストリームフレームワークであるGC-ConsFlowを提案する。
論文 参考訳(メタデータ) (2025-01-23T07:43:56Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。