論文の概要: Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems
- arxiv url: http://arxiv.org/abs/2103.08086v1
- Date: Mon, 15 Mar 2021 01:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 13:44:51.640111
- Title: Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems
- Title(参考訳): エンドツーエンド音声システムの敵対攻撃に対するマルチディスクリミネータSobolev Defense-GAN
- Authors: Mohammad Esmaeilpour and Patrick Cardinal and Alessandro Lameiras
Koerich
- Abstract要約: 本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
- 参考スコア(独自算出の注目度): 78.5097679815944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a defense approach against end-to-end adversarial
attacks developed for cutting-edge speech-to-text systems. The proposed defense
algorithm has four major steps. First, we represent speech signals with 2D
spectrograms using the short-time Fourier transform. Second, we iteratively
find a safe vector using a spectrogram subspace projection operation. This
operation minimizes the chordal distance adjustment between spectrograms with
an additional regularization term. Third, we synthesize a spectrogram with such
a safe vector using a novel GAN architecture trained with Sobolev integral
probability metric. To improve the model's performance in terms of stability
and the total number of learned modes, we impose an additional constraint on
the generator network. Finally, we reconstruct the signal from the synthesized
spectrogram and the Griffin-Lim phase approximation technique. We evaluate the
proposed defense approach against six strong white and black-box adversarial
attacks benchmarked on DeepSpeech, Kaldi, and Lingvo models. Our experimental
results show that our algorithm outperforms other state-of-the-art defense
algorithms both in terms of accuracy and signal quality.
- Abstract(参考訳): 本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
提案する防衛アルゴリズムには4つの大きなステップがある。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
この操作は、追加の正規化項でスペクトログラム間のコード距離調整を最小化する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
モデルの性能を安定性と学習モードの総数の観点から向上させるため,我々はジェネレータネットワークにさらなる制約を課した。
最後に、合成スペクトログラムとグリフィン-リム位相近似法からの信号を再構成する。
提案手法は,deepspeech,kaldi,lingvoモデルを用いた6つの強力な白黒ボックス敵攻撃に対する防御手法を評価する。
実験の結果,本アルゴリズムは精度と信号品質の両面で,最先端の防御アルゴリズムよりも優れていることがわかった。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Frame-to-Utterance Convergence: A Spectra-Temporal Approach for Unified
Spoofing Detection [6.713879688002623]
既存のアンチ・スプーフィング法は、しばしば合成攻撃やリプレイ攻撃のような特定の攻撃タイプをシミュレートする。
現在の統合されたソリューションは、偽造品を検出するのに苦労している。
フレームレベルおよび発話レベル係数を利用したスペクトル時間融合を提案する。
論文 参考訳(メタデータ) (2023-09-18T14:54:42Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Deep-Bayesian Framework for Adaptive Speech Duration Modification [20.99099283004413]
我々はベイズフレームワークを用いて、入力とターゲット発話のフレームをリンクする潜在注意マップを定義する。
マスク付き畳み込みエンコーダ・デコーダネットワークをトレーニングし、このアテンションマップを平均絶対誤差損失関数のバージョンで生成する。
提案手法は,最先端のボコーダに匹敵する高い品質の音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-07-11T05:53:07Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Adversarial Robustness by Design through Analog Computing and Synthetic
Gradients [80.60080084042666]
光コプロセッサにインスパイアされた敵攻撃に対する新しい防御機構を提案する。
ホワイトボックス設定では、我々の防御はランダム投影のパラメータを難読化することで機能する。
光学系におけるランダムプロジェクションとバイナライゼーションの組み合わせにより、様々な種類のブラックボックス攻撃に対するロバスト性も向上する。
論文 参考訳(メタデータ) (2021-01-06T16:15:29Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z) - Unsupervised Cross-Domain Speech-to-Speech Conversion with
Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。
Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2020-05-15T22:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。