論文の概要: Segmentation-Guided Spatial Indexing for Generalizable and Explainable Deepfake Detection
- arxiv url: http://arxiv.org/abs/2606.00098v1
- Date: Mon, 25 May 2026 17:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.888953
- Title: Segmentation-Guided Spatial Indexing for Generalizable and Explainable Deepfake Detection
- Title(参考訳): 一般化可能・説明可能なディープフェイク検出のためのセグメンテーション誘導型空間インデックス作成
- Authors: Izaldein Al-Zyoud, Abdulmotaleb El Saddik,
- Abstract要約: ディープフェイク検出のためのセグメンテーション誘導空間インデクシングを提案する。
まずセマンティックに意味のあるパッチトークンを選択し、それからそれらだけをプールします。
Celeb-DF v2では、マウスインデクシングプローブがAUC 0.905を達成し、LipForensicsとXceptionを上回っている。
- 参考スコア(独自算出の注目度): 14.839283562982544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce segmentation-guided spatial indexing for generalizable and explainable deepfake detection. The key idea reverses the standard design order: rather than pooling all facial tokens and classifying afterward, we first select semantically meaningful patch tokens, then pool only those. A frozen FaRL parser assigns each DINOv3 ViT-L/16 patch token a semantic label; non-target tokens are discarded; a linear probe classifies the retained region. This spatial indexing exploits DINOv3's patch-level spatial consistency, the same property that enables emergent segmentation, to present the probe with a purer regional subspace where manipulation-relevant evidence is less diluted by whole-face cues. Region attribution is structural: when the mouth model predicts fake, the decision used only mouth tokens, not an overlaid saliency map. On Celeb-DF v2, the mouth-indexed probe achieves AUC 0.905, outperforming LipForensics (+8.1 pp) and Xception (+16.9 pp), with no DINOv3 or FaRL fine-tuning and no target-domain data. Ablations isolate the mechanism: replacing regional selection with DINOv3's CLS token drops Celeb-DF v2 AUC by 26.4 pp; replacing DINOv3 with FaRL features drops it by 20.9 pp. Both DINOv3 representation and the spatial index are independently necessary; neither alone approaches the full system.
- Abstract(参考訳): 一般化可能かつ説明可能なディープフェイク検出のためのセグメンテーション誘導空間インデクシングを提案する。
すべての顔トークンをプールし、その後に分類するのではなく、まずセマンティックに意味のあるパッチトークンを選択し、次にそれらのみをプールします。
凍結されたFaRLパーサは、それぞれのDINOv3 ViT-L/16パッチトークンをセマンティックラベルに割り当て、非ターゲットトークンは破棄され、線形プローブは保持領域を分類する。
この空間インデクシングは、DINOv3のパッチレベルの空間整合性(創発的セグメンテーションを可能にするのと同じ性質)を利用して、操作関連証拠が全面的手がかりによって希薄になるような、より純粋な部分空間でプローブを提示する。
地域帰属は構造的であり、口のモデルが偽物を予測するとき、決定はオーバレイドのサリエンシマップではなく、口のトークンのみを用いていた。
Celeb-DF v2では、マウスインデクシングプローブがAUC 0.905を達成し、LipForensics(+8.1 pp)とXception(+16.9 pp)を上回り、DINOv3やFaRLの微調整やターゲットドメインデータがない。
DINOv3 の CLS トークンによる地域選択は Celeb-DF v2 AUC を 26.4 pp で減少させ、DINOv3 を FaRL に置き換えると 20.9 pp で減少させる。
DINOv3表現と空間指数は独立に必要であり、どちらも完全なシステムに近づかない。
関連論文リスト
- SegRAG: Training-Free Retrieval-Augmented Semantic Segmentation [13.665861251747144]
SegRAGは、トレーニング不要の検索拡張セグメンテーションフレームワークである。
SAM3には、DINOv3機能バンクから派生したクラス固有のポイントプロンプトがある。
4つの標準ベンチマークでは、SegRAGはテキストのみのベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-17T19:51:32Z) - HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention [62.79085204939384]
HISA (Hierarchical Indexed Sparse Attention) は、平らなトークンスキャンから2段階の階層的な手順に検索パスを書き換える。
カーネルレベルのベンチマークでは、HISAは64Kコンテキストでの高速化を実現している。
論文 参考訳(メタデータ) (2026-03-30T13:59:51Z) - VoxDet: Rethinking 3D Semantic Occupancy Prediction as Dense Object Detection [67.09867723723934]
3Dのセマンティック占有予測は,周囲環境の3D形状とセマンティックスを再構築することを目的としている。
密接なボクセルラベルでは、以前の研究は通常、これを密接なセグメンテーションタスクとして定式化し、それぞれのボクセルを独立に分類する。
本稿では,Voxelレベルの占有率予測を高密度オブジェクト検出として再構成する,インスタンス中心のフレームワークであるVoxDetを提案する。
論文 参考訳(メタデータ) (2025-06-05T04:31:55Z) - Spatial regularisation for improved accuracy and interpretability in keypoint-based registration [5.286949071316761]
教師なしキーポイント検出に基づく最近のアプローチは、解釈可能性に非常に有望である。
本稿では,特徴量の空間分布を正規化するための3倍の損失を提案する。
我々の損失は特徴の解釈可能性を大幅に改善し、現在では正確で解剖学的に意味のあるランドマークに対応しています。
論文 参考訳(メタデータ) (2025-03-06T14:48:25Z) - Subspace Prototype Guidance for Mitigating Class Imbalance in Point Cloud Semantic Segmentation [23.250178208474928]
本稿では,サブスペースのプロトタイプガイダンス(textbfSPG)を用いて,セグメンテーションネットワークのトレーニングを指導する手法を提案する。
提案手法はセグメンテーション性能を大幅に向上し,最先端の手法を超越する。
論文 参考訳(メタデータ) (2024-08-20T04:31:46Z) - Complete & Label: A Domain Adaptation Approach to Semantic Segmentation
of LiDAR Point Clouds [49.47017280475232]
3次元点雲のセマンティックラベリングにおける教師なし領域適応問題について検討する。
セグメンテーションネットワークに渡す前に、基盤となる表面を復元するためにComplete と Label のアプローチを採用する。
回収された3D表面は標準領域として機能し、そこからセマンティックラベルが異なるLiDARセンサー間で転送される。
論文 参考訳(メタデータ) (2020-07-16T17:42:05Z) - Adaptive feature recombination and recalibration for semantic
segmentation with Fully Convolutional Networks [57.64866581615309]
完全畳み込みネットワークを用いたセマンティックセグメンテーションに適応した特徴の組換えと空間適応型再分類ブロックを提案する。
その結果、再結合と再校正は競争ベースラインの結果を改善し、3つの異なる問題にまたがって一般化することを示した。
論文 参考訳(メタデータ) (2020-06-19T15:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。