論文の概要: Next-Frame Feature Prediction for Multimodal Deepfake Detection and Temporal Localization
- arxiv url: http://arxiv.org/abs/2511.10212v1
- Date: Fri, 14 Nov 2025 01:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.749125
- Title: Next-Frame Feature Prediction for Multimodal Deepfake Detection and Temporal Localization
- Title(参考訳): マルチモーダルディープフェイク検出と時間的位置推定のための次フレーム特徴予測
- Authors: Ashutosh Anshul, Shreyas Gopal, Deepu Rajan, Eng Siong Chng,
- Abstract要約: 一般化を促進する一段階学習フレームワークを提案する。
予測されたフレームと実際のフレームの相違を捉えるために,ウィンドウレベルのアテンション機構を導入する。
複数のベンチマークデータセットで評価した本モデルでは,強い一般化と正確な時間的局所性を示す。
- 参考スコア(独自算出の注目度): 37.361231344742045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal deepfake detection methods designed for generalization conjecture that single-stage supervised training struggles to generalize across unseen manipulations and datasets. However, such approaches that target generalization require pretraining over real samples. Additionally, these methods primarily focus on detecting audio-visual inconsistencies and may overlook intra-modal artifacts causing them to fail against manipulations that preserve audio-visual alignment. To address these limitations, we propose a single-stage training framework that enhances generalization by incorporating next-frame prediction for both uni-modal and cross-modal features. Additionally, we introduce a window-level attention mechanism to capture discrepancies between predicted and actual frames, enabling the model to detect local artifacts around every frame, which is crucial for accurately classifying fully manipulated videos and effectively localizing deepfake segments in partially spoofed samples. Our model, evaluated on multiple benchmark datasets, demonstrates strong generalization and precise temporal localization.
- Abstract(参考訳): 近年のマルチモーダルディープフェイク検出手法は、単一ステージの教師付きトレーニングが、目に見えない操作やデータセットをまたいだ一般化に苦慮しているという一般化予想のために設計されている。
しかし、一般化を目標とするそのようなアプローチは、実際のサンプルよりも事前訓練を必要とする。
さらに、これらの手法は主にオーディオ・視覚的不整合の検出に重点を置いており、モーダル内アーティファクトを見落とし、オーディオ・視覚的アライメントを保持する操作に失敗する可能性がある。
これらの制約に対処するため,一様およびクロスモーダル両方の特徴に対して,次のフレーム予測を組み込むことにより,一般化を促進する一段階トレーニングフレームワークを提案する。
さらに、予測されたフレームと実際のフレーム間の不一致を捉えるためのウィンドウレベルアテンション機構を導入し、完全に操作されたビデオの正確な分類と、部分的にスプーフされたサンプルにおけるディープフェイクセグメントの局所化に欠かせない、各フレームの局所的なアーティファクトの検出を可能にする。
複数のベンチマークデータセットで評価した本モデルでは,強い一般化と正確な時間的局所性を示す。
関連論文リスト
- Multi-modal Deepfake Detection and Localization with FPN-Transformer [21.022230340898556]
FPN変換器(Feature Pyramid-Transformer)に基づくマルチモーダルディープフェイク検出およびローカライゼーションフレームワークを提案する。
マルチスケールな特徴ピラミッドは、R-TLMブロックと局所的な注意機構によって構築され、コンテキスト間の時間的依存関係の結合解析を可能にする。
我々は,IJCAI'25 DDL-AVベンチマークの試験セットに対するアプローチを評価し,最終スコア0.7535で良好な性能を示した。
論文 参考訳(メタデータ) (2025-11-11T09:33:39Z) - Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。
まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。
第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文 参考訳(メタデータ) (2024-08-13T09:19:59Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。