論文の概要: A Novel Local Focusing Mechanism for Deepfake Detection Generalization
- arxiv url: http://arxiv.org/abs/2508.17029v1
- Date: Sat, 23 Aug 2025 14:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.304568
- Title: A Novel Local Focusing Mechanism for Deepfake Detection Generalization
- Title(参考訳): ディープフェイク検出一般化のための新しい局所集中機構
- Authors: Mingliang Li, Lin Yuanbo Wu, Changhong Liu, Hanxi Li,
- Abstract要約: ディープフェイク生成技術は、堅牢で一般化可能な検出方法の必要性を強めている。
本研究では,実画像と偽画像を識別するための識別的局所特徴に明示的に対応する新しいローカルフォーカス機構(LFM)を提案する。
LFMは3.7の精度向上と2.8の精度向上を実現している。
- 参考スコア(独自算出の注目度): 10.223643897131192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of deepfake generation techniques has intensified the need for robust and generalizable detection methods. Existing approaches based on reconstruction learning typically leverage deep convolutional networks to extract differential features. However, these methods show poor generalization across object categories (e.g., from faces to cars) and generation domains (e.g., from GANs to Stable Diffusion), due to intrinsic limitations of deep CNNs. First, models trained on a specific category tend to overfit to semantic feature distributions, making them less transferable to other categories, especially as network depth increases. Second, Global Average Pooling (GAP) compresses critical local forgery cues into a single vector, thus discarding discriminative patterns vital for real-fake classification. To address these issues, we propose a novel Local Focus Mechanism (LFM) that explicitly attends to discriminative local features for differentiating fake from real images. LFM integrates a Salience Network (SNet) with a task-specific Top-K Pooling (TKP) module to select the K most informative local patterns. To mitigate potential overfitting introduced by Top-K pooling, we introduce two regularization techniques: Rank-Based Linear Dropout (RBLD) and Random-K Sampling (RKS), which enhance the model's robustness. LFM achieves a 3.7 improvement in accuracy and a 2.8 increase in average precision over the state-of-the-art Neighboring Pixel Relationships (NPR) method, while maintaining exceptional efficiency at 1789 FPS on a single NVIDIA A6000 GPU. Our approach sets a new benchmark for cross-domain deepfake detection. The source code are available in https://github.com/lmlpy/LFM.git
- Abstract(参考訳): ディープフェイク生成技術の急速な進歩により、堅牢で一般化可能な検出方法の必要性が高まっている。
再構成学習に基づく既存のアプローチは、よくディープ畳み込みネットワークを利用して微分特徴を抽出する。
しかし、これらの手法は、深いCNNの本質的な制限のため、オブジェクトカテゴリ(例えば、顔から車まで)と生成ドメイン(例えば、GANから安定拡散まで)をまたいだ一般化が不十分である。
第一に、特定のカテゴリでトレーニングされたモデルは意味的特徴分布に過度に適合する傾向があり、特にネットワークの深さが増加するにつれて、他のカテゴリへの転送が困難になる。
第二に、Global Average Pooling (GAP) は重要な局所偽造のキューを1つのベクトルに圧縮し、現実のフェイク分類に不可欠な識別パターンを捨てる。
これらの課題に対処するために,実画像と偽画像の識別のための局所的特徴を識別する新しいローカルフォーカス機構(LFM)を提案する。
LFMはSalience Network (SNet) とタスク固有のTop-K Pooling (TKP) モジュールを統合し、Kが最も有益なローカルパターンを選択する。
そこで我々は,RKSとRKSの2つの正則化手法を導入し,モデルのロバスト性を高める。
LFMは3.7の精度向上と2.8の精度向上を実現し、1つのNVIDIA A6000 GPU上で1789 FPSで例外的な効率を維持しながら、最先端の隣接Pixel Relations (NPR) 法を比較検討した。
提案手法は,クロスドメインディープフェイク検出のための新しいベンチマークを設定する。
ソースコードはhttps://github.com/lmlpy/LFM.gitで入手できる。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - LAA-Net: Localized Artifact Attention Network for Quality-Agnostic and Generalizable Deepfake Detection [12.567069964305265]
本稿では,LAA-Net(Localized Artifact Attention Network)と呼ばれる高品質なディープフェイク検出手法を提案する。
高品質なディープフェイク検出のための既存の方法は、主に暗黙の注意機構を備えた教師付きバイナリ分類器に基づいている。
いくつかのベンチマークで行った実験は、AUC(Area Under the Curve)とAP(Average Precision)の観点から、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-01-24T23:42:08Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Markov Localisation using Heatmap Regression and Deep Convolutional
Odometry [59.33322623437816]
我々は,最新のディープラーニングハードウェアを活用する新しいCNNベースのローカライゼーション手法を提案する。
画像に基づくローカライゼーションと,1つのニューラルネットワーク内でのオドメトリーに基づく確率伝搬を行うハイブリッドCNNを作成する。
論文 参考訳(メタデータ) (2021-06-01T10:28:49Z) - Focus on Local: Detecting Lane Marker from Bottom Up via Key Point [10.617793053931964]
本研究では,局所パターンのモデル化とグローバルな構造予測に焦点をあてた新しいレーンマーカー検出ソリューションFOLOLaneを提案する。
具体的には、CNNは2つの異なる頭部を持つ低複雑局所パターンをモデル化し、第1は鍵点の存在を予測し、第2は局所範囲における鍵点の位置を洗練し、同じレーン線の鍵点を相関させる。
論文 参考訳(メタデータ) (2021-05-28T08:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。