Fugu-MT 論文翻訳(概要): Investigating the Impact of Speech Enhancement on Audio Deepfake Detection in Noisy Environments

論文の概要: Investigating the Impact of Speech Enhancement on Audio Deepfake Detection in Noisy Environments

arxiv url: http://arxiv.org/abs/2603.14767v1
Date: Mon, 16 Mar 2026 03:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:36.01768
Title: Investigating the Impact of Speech Enhancement on Audio Deepfake Detection in Noisy Environments
Title（参考訳）: 雑音環境における音声ディープフェイク検出における音声強調の効果の検討
Authors: Anacin, Angela, Shruti Kshirsagar, Anderson R. Avila,
Abstract要約: Logical Access (LA) 攻撃は、音声ディープフェイク攻撃としても知られ、テキスト・トゥ・スペーチ(TTS)またはボイス・コンバージョン(VC)手法を用いて、スプーフされた音声データを生成する。本研究では,音声スプーフィング検出システムの性能と音質の相関について検討した。
参考スコア（独自算出の注目度）: 1.8315988392353102
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Logical Access (LA) attacks, also known as audio deepfake attacks, use Text-to-Speech (TTS) or Voice Conversion (VC) methods to generate spoofed speech data. This can represent a serious threat to Automatic Speaker Verification (ASV) systems, as intruders can use such attacks to bypass voice biometric security. In this study, we investigate the correlation between speech quality and the performance of audio spoofing detection systems (i.e., LA task). For that, the performance of two enhancement algorithms is evaluated based on two perceptual speech quality measures, namely Perceptual Evaluation of Speech Quality (PESQ) and Speech-to-Reverberation Modulation Ratio (SRMR), and in respect to their impact on the audio spoofing detection system. We adopted the LA dataset, provided in the ASVspoof 2019 Challenge, and corrupted its test set with different Signal-to-Noise Ratio (SNR) levels, while leaving the training data untouched. Enhancement was applied to attenuate the detrimental effects of noisy speech, and the performances of two models, Speech Enhancement Generative Adversarial Network (SEGAN) and Metric-Optimized Generative Adversarial Network Plus (MetricGAN+), were compared. Although we expect that speech quality will correlate well with speech applications' performance, it can also have as a side effect on downstream tasks if unwanted artifacts are introduced or relevant information is removed from the speech signal. Our results corroborate with this hypothesis, as we found that the enhancement algorithm leading to the highest speech quality scores, MetricGAN+, provided the lowest Equal Error Rate (EER) on the audio spoofing detection task, whereas the enhancement method with the lowest speech quality scores, SEGAN, led to the lowest EER, thus leading to better performance on the LA task.
Abstract（参考訳）: Logical Access (LA) 攻撃は、音声ディープフェイク攻撃としても知られ、テキスト・トゥ・スペーチ(TTS)またはボイス・コンバージョン(VC)手法を用いて、スプーフされた音声データを生成する。これは自動話者認証(ASV)システムに対する深刻な脅威であり、侵入者は音声生体認証を回避できる。本研究では,音声スプーフィング検出システム(LAタスク)の音声品質と性能の相関について検討した。そのため、音声品質評価(PESQ)とSRMR(Speech-to-Reverberation Modulation Ratio)という2つの知覚的音声品質尺度に基づいて、2つの拡張アルゴリズムの性能を評価し、音声スプーフィング検出システムへの影響について検討する。 ASVspoof 2019 Challengeで提供されたLAデータセットを採用して、トレーニングデータを変更せずに、SNR(Signal-to-Noise Ratio)レベルが異なるテストセットを破損させました。雑音の抑止効果を抑えるために強調法を適用し,2つのモデル,SEGANとMetric-Optimized Generative Adversarial Network Plus(MetricGAN+)を比較した。音声品質は音声アプリケーションの性能とよく相関すると予想するが、不要なアーティファクトが導入されたり、関連する情報が音声信号から削除されたりした場合、下流タスクに副作用を与えることもある。その結果,最高の音声品質スコアにつながる拡張アルゴリズムであるMetricGAN+は,音声スプーフィング検出タスクにおいて,EER(Equal Error Rate)が最も低く,SEGAN(SEGAN)は最低のEER(Equal Error Rate)となることがわかった。

関連論文リスト

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Feature Fusion [1.376408511310322]
音声品質と知性はノイズの多い環境で著しく劣化する。本稿では,単一チャネル雑音抑圧問題に対処するトランスフォーマーに基づく新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-14T19:27:42Z)
Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2025-05-29T07:47:48Z)
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-06T18:00:14Z)
Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space [10.875499903992782]
我々は、音声コマンド分類の特定のタスクに対して、合成音声データを用いてゼロショット学習に関する一連の実験を行う。 Google Speech Commands データセットの結果から,単純な ASR ベースのフィルタリング手法が生成したデータの品質に大きな影響を及ぼす可能性が示唆された。生成した音声データの品質は高いが,自己教師付き(WavLM)機能を用いることで,合成音声と実音声の区別が容易に可能であることを示す。
論文参考訳（メタデータ） (2024-09-19T13:07:55Z)
An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS [43.84833978193758]
ゼロショット音声合成システム(TTS)は、任意の話者の声を短い音声プロンプトから合成することができる。生成した音声の品質は、音声プロンプトがノイズを含むと著しく劣化する。本稿では,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討する。
論文参考訳（メタデータ） (2024-06-09T08:51:50Z)
Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文参考訳（メタデータ） (2022-11-02T15:03:50Z)
Interactive Feature Fusion for End-to-End Noise-Robust Speech Recognition [25.84784710031567]
本稿では,ノイズロバスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案する。実験の結果,提案手法は最良基準値に対して絶対単語誤り率(WER)を4.1%削減できることがわかった。さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能において欠落した情報を補うことができることがわかった。
論文参考訳（メタデータ） (2021-10-11T13:40:07Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。本稿では,WUW検出に適応した音声強調モデルを提案する。これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文参考訳（メタデータ） (2021-01-29T18:44:05Z)
Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文参考訳（メタデータ） (2020-03-31T02:16:34Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。