論文の概要: Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models
- arxiv url: http://arxiv.org/abs/2407.01777v1
- Date: Mon, 1 Jul 2024 20:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:23:01.136938
- Title: Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models
- Title(参考訳): スペクトルベース特徴と深層学習モデルのアンサンブルを用いたディープフェイク音声検出
- Authors: Lam Pham, Phat Lam, Truong Nguyen, Huyen Nguyen, Alexander Schindler,
- Abstract要約: 本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず様々なスペクトログラムに変換される。
我々は、Whisper、Seamless、Speechbrain、Pyannoteといった最先端のオーディオ事前訓練モデルを利用して、オーディオ埋め込みを抽出する。
- 参考スコア(独自算出の注目度): 42.39774323584976
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a deep learning based system for the task of deepfake audio detection. In particular, the draw input audio is first transformed into various spectrograms using three transformation methods of Short-time Fourier Transform (STFT), Constant-Q Transform (CQT), Wavelet Transform (WT) combined with different auditory-based filters of Mel, Gammatone, linear filters (LF), and discrete cosine transform (DCT). Given the spectrograms, we evaluate a wide range of classification models based on three deep learning approaches. The first approach is to train directly the spectrograms using our proposed baseline models of CNN-based model (CNN-baseline), RNN-based model (RNN-baseline), C-RNN model (C-RNN baseline). Meanwhile, the second approach is transfer learning from computer vision models such as ResNet-18, MobileNet-V3, EfficientNet-B0, DenseNet-121, SuffleNet-V2, Swint, Convnext-Tiny, GoogLeNet, MNASsnet, RegNet. In the third approach, we leverage the state-of-the-art audio pre-trained models of Whisper, Seamless, Speechbrain, and Pyannote to extract audio embeddings from the input spectrograms. Then, the audio embeddings are explored by a Multilayer perceptron (MLP) model to detect the fake or real audio samples. Finally, high-performance deep learning models from these approaches are fused to achieve the best performance. We evaluated our proposed models on ASVspoof 2019 benchmark dataset. Our best ensemble model achieved an Equal Error Rate (EER) of 0.03, which is highly competitive to top-performing systems in the ASVspoofing 2019 challenge. Experimental results also highlight the potential of selective spectrograms and deep learning approaches to enhance the task of audio deepfake detection.
- Abstract(参考訳): 本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず、短い時間フーリエ変換(STFT)、定数Q変換(CQT)、ウェーブレット変換(WT)、メル、ガンマトイン、リニアフィルタ(LF)、離散コサイン変換(DCT)の3つの変換方法を用いて、様々な分光器に変換される。
スペクトルから,3つの深層学習アプローチに基づいて,幅広い分類モデルを評価する。
最初のアプローチは、提案したCNNベースラインモデル(CNNベースライン)、RNNベースラインモデル(RNNベースライン)、C-RNNモデル(C-RNNベースライン)のベースラインモデルを用いて、スペクトルを直接訓練することである。
一方、第2のアプローチはResNet-18、MobileNet-V3、EfficientNet-B0、DenseNet-121、SuffleNet-V2、Swint、Convnext-Tiny、GoogLeNet、MNASsnet、RegNetといったコンピュータビジョンモデルからの学習である。
第3のアプローチでは、Whisper、Seamless、Speechbrain、Pyannoteの最先端オーディオ事前学習モデルを利用して、入力スペクトログラムからオーディオ埋め込みを抽出する。
次に、音声埋め込みを多層パーセプトロン(MLP)モデルで探索し、偽または実のオーディオサンプルを検出する。
最後に、これらのアプローチによる高性能ディープラーニングモデルは、最高のパフォーマンスを達成するために融合される。
提案したモデルをASVspoof 2019ベンチマークデータセットで評価した。
私たちのベストアンサンブルモデルは、ASVspoofing 2019チャレンジでトップパフォーマンスシステムと高い競争力を持つEER(Equal Error Rate)の0.03を達成しました。
実験結果はまた、オーディオディープフェイク検出のタスクを強化するために、選択的スペクトログラムとディープラーニングアプローチの可能性を強調した。
関連論文リスト
- Fitting Auditory Filterbanks with Multiresolution Neural Networks [4.944919495794613]
マルチレゾリューションニューラルネットワーク(MuReNN)というニューラルオーディオモデルを導入する。
MuReNNの鍵となる考え方は、離散ウェーブレット変換(DWT)のオクターブ部分バンド上で、分離畳み込み演算子を訓練することである。
与えられた実世界のデータセットに対して、よく確立された聴覚フィルタバンクのそれに対して、MuReNNのマグニチュードレスポンスを適合させる。
論文 参考訳(メタデータ) (2023-07-25T21:20:12Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。