論文の概要: LENS-DF: Deepfake Detection and Temporal Localization for Long-Form Noisy Speech
- arxiv url: http://arxiv.org/abs/2507.16220v2
- Date: Thu, 24 Jul 2025 01:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.857068
- Title: LENS-DF: Deepfake Detection and Temporal Localization for Long-Form Noisy Speech
- Title(参考訳): LENS-DF:長期雑音音声におけるディープフェイク検出と時間的位置推定
- Authors: Xuechen Liu, Wanying Ge, Xin Wang, Junichi Yamagishi,
- Abstract要約: LENS-DFは、オーディオディープフェイクの検出と時間的局在のトレーニングと評価のための、新しく包括的なレシピである。
自己教師型学習フロントエンドと単純なバックエンドに基づいて実験を行う。
その結果、LENS-DFで生成されたデータを用いてトレーニングしたモデルは、従来のレシピでトレーニングしたモデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 35.36044093564255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study introduces LENS-DF, a novel and comprehensive recipe for training and evaluating audio deepfake detection and temporal localization under complicated and realistic audio conditions. The generation part of the recipe outputs audios from the input dataset with several critical characteristics, such as longer duration, noisy conditions, and containing multiple speakers, in a controllable fashion. The corresponding detection and localization protocol uses models. We conduct experiments based on self-supervised learning front-end and simple back-end. The results indicate that models trained using data generated with LENS-DF consistently outperform those trained via conventional recipes, demonstrating the effectiveness and usefulness of LENS-DF for robust audio deepfake detection and localization. We also conduct ablation studies on the variations introduced, investigating their impact on and relevance to realistic challenges in the field.
- Abstract(参考訳): LENS-DFは、複雑で現実的な音声条件下での音声深度検出と時間的局所化を訓練し、評価するための新しい総合的なレシピである。
レシピの生成部は、長い持続時間、雑音条件、複数の話者を含むいくつかの重要な特徴を持つ入力データセットから、制御可能な方法で音声を出力する。
対応する検出およびローカライゼーションプロトコルはモデルを使用する。
自己教師型学習フロントエンドと単純なバックエンドに基づいて実験を行う。
その結果,LENS-DFで生成したデータを用いてトレーニングしたモデルは,従来のレシピでトレーニングしたデータより一貫して優れており,ロバストなディープフェイク検出とローカライゼーションのためのLENS-DFの有効性と有用性を示している。
また,導入した変種に関するアブレーション研究を行い,その影響と現場における現実的な課題との関連について検討する。
関連論文リスト
- Exploring the Frontiers of kNN Noisy Feature Detection and Recovery for Self-Driving Labs [0.49478969093606673]
本研究では,ノイズのある特徴を自動で検出し,修正可能なサンプル・フィーチャー・ペアリングを判定し,最終的に適切な特徴値を復元するワークフローを開発する。
次に, データセットのサイズ, 雑音強度, 特徴値分布が, ノイズの特徴の検出可能性および回復可能性に与える影響について, 系統的研究を行った。
論文 参考訳(メタデータ) (2025-07-15T03:35:56Z) - Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。
まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。
第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文 参考訳(メタデータ) (2024-08-13T09:19:59Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Unsupervised Acoustic Scene Mapping Based on Acoustic Features and
Dimensionality Reduction [18.641610823584433]
データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。
本手法は,実測値から標準データ座標を学習するためのオフライン深層学習方式であるローカル共形オートエンコーダ(LOCA)に基づいて構築する。
論文 参考訳(メタデータ) (2023-01-01T17:46:09Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。