論文の概要: DIN-CTS: Low-Complexity Depthwise-Inception Neural Network with Contrastive Training Strategy for Deepfake Speech Detection
- arxiv url: http://arxiv.org/abs/2502.20225v1
- Date: Thu, 27 Feb 2025 16:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:25.418527
- Title: DIN-CTS: Low-Complexity Depthwise-Inception Neural Network with Contrastive Training Strategy for Deepfake Speech Detection
- Title(参考訳): DIN-CTS:ディープフェイク音声検出のためのコントラストトレーニング戦略を用いた低複雑さ奥行きニューラルネットワーク
- Authors: Lam Pham, Dat Tran, Florian Skopik, Alexander Schindler, Silvia Poletti, Fischinger David, Martin Boyer,
- Abstract要約: コントラスト学習戦略(CTS)を訓練した低複雑さDIN(Depthwise-Inception Network)に基づくディープフェイク音声検出(DSD)のためのディープニューラルネットワークアプローチを提案する。
提案システムを評価するため,ASVspoof 2019 LAのベンチマークデータセットについて広範な実験を行った。
提案システムは,ASVspoof 2019 LAチャレンジにおけるシングルシステム提案よりも優れており,リアルタイムアプリケーションの可能性を示している。
- 参考スコア(独自算出の注目度): 37.002177495165185
- License:
- Abstract: In this paper, we propose a deep neural network approach for deepfake speech detection (DSD) based on a lowcomplexity Depthwise-Inception Network (DIN) trained with a contrastive training strategy (CTS). In this framework, input audio recordings are first transformed into spectrograms using Short-Time Fourier Transform (STFT) and Linear Filter (LF), which are then used to train the DIN. Once trained, the DIN processes bonafide utterances to extract audio embeddings, which are used to construct a Gaussian distribution representing genuine speech. Deepfake detection is then performed by computing the distance between a test utterance and this distribution to determine whether the utterance is fake or bonafide. To evaluate our proposed systems, we conducted extensive experiments on the benchmark dataset of ASVspoof 2019 LA. The experimental results demonstrate the effectiveness of combining the Depthwise-Inception Network with the contrastive learning strategy in distinguishing between fake and bonafide utterances. We achieved Equal Error Rate (EER), Accuracy (Acc.), F1, AUC scores of 4.6%, 95.4%, 97.3%, and 98.9% respectively using a single, low-complexity DIN with just 1.77 M parameters and 985 M FLOPS on short audio segments (4 seconds). Furthermore, our proposed system outperforms the single-system submissions in the ASVspoof 2019 LA challenge, showcasing its potential for real-time applications.
- Abstract(参考訳): 本稿では,低複雑さ度DIN(Depthwise-Inception Network)に基づくディープラーニング音声検出(DSD)のためのディープニューラルネットワーク手法を提案する。
このフレームワークでは、入力された音声記録を、まずショートタイムフーリエ変換(STFT)とリニアフィルタ(LF)を使用して分光器に変換し、次にDINを訓練する。
訓練後、DINはボナファイド発話を処理して音声埋め込みを抽出し、実際の音声を表すガウス分布を構築する。
次に、テスト発話とこの分布との距離を計算してディープフェイク検出を行い、その発話が偽かボナファイドかを決定する。
提案システムを評価するため,ASVspoof 2019 LAのベンチマークデータセットについて広範な実験を行った。
実験結果は,デプスワイズ・インセプション・ネットワークと対照的な学習戦略を組み合わせることで,ニセモノとボナファイドの発話を区別する効果を示した。
EER(Equal Error Rate)、Acc.(Acc.)、F1、AUCスコアは4.6%、95.4%、97.3%、98.9%で、それぞれ1.77Mパラメータと985M FLOPSの短い音声セグメント(4秒)で達成した。
さらに, 提案システムは, ASVspoof 2019 LA チャレンジにおけるシングルシステム提案よりも優れており, リアルタイムアプリケーションの可能性を示している。
関連論文リスト
- Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection [7.42741711946564]
本研究は,大規模音声データセットに基づいて学習した訓練済みの深層モデルから抽出した音声埋め込みの応用を紹介する。
制限されたSEP-28kデータセットのみに基づいてトレーニングされた標準的な散乱検出システムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
論文 参考訳(メタデータ) (2022-04-04T15:12:25Z) - Improving the fusion of acoustic and text representations in RNN-T [35.43599666228086]
我々は、より表現力のある表現を生成するために、ゲーティング、バイリニアプーリング、およびそれらを結合ネットワークで組み合わせることを提案する。
提案手法の併用により, 単語誤り率を4%-5%削減できることを示す。
論文 参考訳(メタデータ) (2022-01-25T11:20:50Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。