論文の概要: "Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the
Real World
- arxiv url: http://arxiv.org/abs/2109.09598v1
- Date: Mon, 20 Sep 2021 14:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 21:43:19.527164
- Title: "Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the
Real World
- Title(参考訳): 「Hello, It's Me」:現実世界における深層学習型音声合成攻撃
- Authors: Emily Wenger, Max Bronckers, Christian Cianfarani, Jenna Cryan, Angela
Sha, Haitao Zheng, Ben Y. Zhao
- Abstract要約: ディープラーニングの進歩は、ターゲット話者が話すように聞こえる音声を生成できる、新しい音声合成ツールの波を導入した。
本稿では,深層学習に基づく音声合成攻撃が人間の聴取者および機械に与える影響について,包括的実験から得られた知見を報告する。
人間と機械の両方が、合成音声によって確実に騙され、既存の合成音声に対する防御が不足していることがわかりました。
- 参考スコア(独自算出の注目度): 14.295573703789493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in deep learning have introduced a new wave of voice synthesis
tools, capable of producing audio that sounds as if spoken by a target speaker.
If successful, such tools in the wrong hands will enable a range of powerful
attacks against both humans and software systems (aka machines). This paper
documents efforts and findings from a comprehensive experimental study on the
impact of deep-learning based speech synthesis attacks on both human listeners
and machines such as speaker recognition and voice-signin systems. We find that
both humans and machines can be reliably fooled by synthetic speech and that
existing defenses against synthesized speech fall short. These findings
highlight the need to raise awareness and develop new protections against
synthetic speech for both humans and machines.
- Abstract(参考訳): ディープラーニングの進歩により、ターゲットスピーカーが話すような音声を生成できる音声合成ツールの新たな波が導入された。
うまくいけば、このようなツールを間違った手で使用すれば、人間とソフトウェアシステム(別名マシン)の両方に対する強力な攻撃が可能になる。
本稿では,学習に基づく音声合成攻撃が話者認識や音声信号システムなどの人間と機械の両方に与える影響に関する包括的実験研究の成果と成果について述べる。
人間と機械の両方が、合成音声によって確実に騙され、既存の合成音声に対する防御が不足していることがわかりました。
これらの知見は、認識を高め、人間と機械の両方の合成音声に対する新しい保護を開発する必要性を強調している。
関連論文リスト
- Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Simple and Effective Unsupervised Speech Synthesis [97.56065543192699]
簡単なレシピに基づく教師なし音声合成システムを提案する。
本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
論文 参考訳(メタデータ) (2022-04-06T00:19:13Z) - LaughNet: synthesizing laughter utterances from waveform silhouettes and
a single laughter example [55.10864476206503]
我々は、波形シルエットを入力として、笑いを合成するLaughNetと呼ばれるモデルを提案する。
その結果,LaughNetは笑い声を適度な品質で合成し,トレーニング例の特徴を保てることがわかった。
論文 参考訳(メタデータ) (2021-10-11T00:45:07Z) - Using Deep Learning Techniques and Inferential Speech Statistics for AI
Synthesised Speech Recognition [0.0]
本研究では、実際の人間の音声から合成音声を識別するのに役立つモデルを提案し、その生成源を同定する。
このモデルは、AI合成音声を実際の人間の音声から1.9%の誤差率で分類し、基礎となるアーキテクチャを97%の精度で検出することで、最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-07-23T18:43:10Z) - Audio Adversarial Examples: Attacks Using Vocal Masks [0.0]
自動音声テキストシステム上での音声対向例を構築した。
我々は、オリジナル音声から生成された音声のボーカルマスクをオーバーレイすることで、別の音声を生成する。
We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。
論文 参考訳(メタデータ) (2021-02-04T05:21:10Z) - Speech Synthesis as Augmentation for Low-Resource ASR [7.2244067948447075]
音声合成は低リソース音声認識の鍵となるかもしれない。
データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。
音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。
論文 参考訳(メタデータ) (2020-12-23T22:19:42Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。