論文の概要: Environmental Sound Deepfake Detection Using Deep-Learning Framework
- arxiv url: http://arxiv.org/abs/2604.19652v1
- Date: Tue, 21 Apr 2026 16:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.875322
- Title: Environmental Sound Deepfake Detection Using Deep-Learning Framework
- Title(参考訳): ディープラーニングフレームワークを用いた環境音のディープフェイク検出
- Authors: Lam Pham, Khoi Vu, Dat Tran, Phat Lam, Vu Nguyen, David Fischinger, Alexander Schindler, Martin Boyer, Son Le,
- Abstract要約: 環境音のディープフェイク検出のためのディープラーニングフレームワークを提案する。
我々は、個別のスペクトログラム、広範囲のネットワークアーキテクチャ、事前訓練されたモデルがESDDタスクのパフォーマンスにどのように影響するかを調べる実験を行う。
ベストモデルでは,EnvSDDテストサブセットで0.98,F1スコアが0.95,AuCが0.99,F1スコアが0.77,AuCが0.92,ESDD-Challenge-TestSetデータセットで0.88,F1スコアが0。
- 参考スコア(独自算出の注目度): 33.18594700510224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a deep-learning framework for environmental sound deepfake detection (ESDD) -- the task of identifying whether the sound scene and sound event in an input audio recording is fake or not. To this end, we conducted extensive experiments to explore how individual spectrograms, a wide range of network architectures and pre-trained models, ensemble of spectrograms or network architectures affect the ESDD task performance. The experimental results on the benchmark datasets of EnvSDD and ESDD-Challenge-TestSet indicate that detecting deepfake audio of sound scene and detecting deepfake audio of sound event should be considered as individual tasks. We also indicate that the approach of finetuning a pre-trained model is more effective compared with training a model from scratch for the ESDD task. Eventually, our best model, which was finetuned from the pre-trained WavLM model with the proposed three-stage training strategy, achieve the Accuracy of 0.98, F1 Score of 0.95, AuC of 0.99 on EnvSDD Test subset and the Accuracy of 0.88, F1 Score of 0.77, and AuC of 0.92 on ESDD-Challenge-TestSet dataset.
- Abstract(参考訳): 本稿では,環境音の深度検出(ESDD)のためのディープラーニングフレームワークを提案する。
そこで我々は,個別のスペクトログラム,広範囲のネットワークアーキテクチャ,事前訓練されたモデル,スペクトログラムやネットワークアーキテクチャのアンサンブルがESDDタスクのパフォーマンスに与える影響について,広範な実験を行った。
EnvSDD と ESDD-Challenge-TestSet のベンチマークデータセットによる実験結果から,音声シーンのディープフェイク音声の検出と音声イベントのディープフェイク音声の検出を個別のタスクとみなすべきである。
また,事前学習したモデルの微調整は,ESDDタスクのスクラッチからモデルを訓練するよりも効果的であることが示唆された。
最終的に、提案した3段階トレーニング戦略を用いて、トレーニング済みのWavLMモデルから最適化された最良のモデルが、EnvSDDテストサブセットで0.98、F1スコアが0.95、AuCが0.99、EvSDDテストサブセットで0.88、F1スコアが0.77、AuCが0.92、ESDD-Challenge-TestSetデータセットで0.92の精度を実現した。
関連論文リスト
- End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。