論文の概要: Frame-level Temporal Difference Learning for Partial Deepfake Speech Detection
- arxiv url: http://arxiv.org/abs/2507.15101v1
- Date: Sun, 20 Jul 2025 19:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.196312
- Title: Frame-level Temporal Difference Learning for Partial Deepfake Speech Detection
- Title(参考訳): 部分的ディープフェイク音声検出のためのフレームレベル時間差学習
- Authors: Menglu Li, Xiao-Ping Zhang, Lian Zhao,
- Abstract要約: 不自然な時間変動を識別する部分的な深度検出を再定義する時間差注意モジュール(TDAM)を提案する。
二重レベルの階層的差分表現は、微細なスケールと粗いスケールの両方で時間的不規則性を捕捉する一方、適応的な平均プーリングは、情報損失を最小限に抑えるために、可変長入力における必須パターンを保存する。
当社のTDAM-AvgPoolモデルは,PartialSpoofデータセットで0.59%,HADデータセットで0.03%,最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 16.923285534924116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting partial deepfake speech is essential due to its potential for subtle misinformation. However, existing methods depend on costly frame-level annotations during training, limiting real-world scalability. Also, they focus on detecting transition artifacts between bonafide and deepfake segments. As deepfake generation techniques increasingly smooth these transitions, detection has become more challenging. To address this, our work introduces a new perspective by analyzing frame-level temporal differences and reveals that deepfake speech exhibits erratic directional changes and unnatural local transitions compared to bonafide speech. Based on this finding, we propose a Temporal Difference Attention Module (TDAM) that redefines partial deepfake detection as identifying unnatural temporal variations, without relying on explicit boundary annotations. A dual-level hierarchical difference representation captures temporal irregularities at both fine and coarse scales, while adaptive average pooling preserves essential patterns across variable-length inputs to minimize information loss. Our TDAM-AvgPool model achieves state-of-the-art performance, with an EER of 0.59% on the PartialSpoof dataset and 0.03% on the HAD dataset, which significantly outperforms the existing methods without requiring frame-level supervision.
- Abstract(参考訳): 微妙な誤報の可能性を秘めているため、部分的なディープフェイク音声の検出が不可欠である。
しかし、既存のメソッドはトレーニング中にコストのかかるフレームレベルのアノテーションに依存し、現実のスケーラビリティを制限します。
また、ボナフィドとディープフェイクセグメント間の遷移アーティファクトの検出にも重点を置いている。
ディープフェイク生成技術がこれらの遷移を円滑にするにつれて、検出はますます困難になっている。
そこで本研究では,フレームレベルの時間差を解析して新たな視点を導入し,ボナフィド音声と比較して,深発声が不規則な方向変化や非自然的局所変化を示すことを示した。
そこで本研究では,時間差注意モジュール (TDAM) を提案する。このモジュールは,部分的な深度検出を,明示的な境界アノテーションに頼ることなく,不自然な時間変動を識別するものとして再定義する。
二重レベルの階層的差分表現は、微細なスケールと粗いスケールの両方で時間的不規則性を捕捉する一方、適応的な平均プーリングは、情報損失を最小限に抑えるために、可変長入力における必須パターンを保存する。
当社のTDAM-AvgPoolモデルは,PartialSpoofデータセットで0.59%,HADデータセットで0.03%,最先端のパフォーマンスを実現しています。
関連論文リスト
- Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。
音声の機械知覚におけるモダリティ間差異を利用する。
時間的にディープフェイクの偽造を特定できる。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Generalizable Deepfake Detection with Phase-Based Motion Analysis [11.042856247812969]
本稿では,時間的ダイナミクスの位相に基づく動き表現を利用するDeepFake(DF)ビデオ検出手法であるPhaseForensicsを提案する。
また,CelebDFv2 では 91.2% の動画レベル AUC で, 歪み, 対向性, 最先端のクロスデータセットの一般化が見られた。
論文 参考訳(メタデータ) (2022-11-17T06:28:01Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文 参考訳(メタデータ) (2022-04-13T08:02:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。