論文の概要、ライセンス

# (参考訳) 音声反対例:声帯マスクを用いた攻撃 [全文訳有]

Audio Adversarial Examples: Attacks Using Vocal Masks ( http://arxiv.org/abs/2102.02417v1 )

ライセンス: CC BY 4.0
Lynnette Ng, Kai Yuan Tay, Wei Han Chua, Lucerne Loke, Danqi Ye, Melissa Chua(参考訳) 自動音声テキストシステム上での音声対向例を構築した。 音声波形が与えられると、元の音声から生成された音声音声マスクをオーバーレイして別の音声を生成する。 We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。 さらに,人間アノテータに敵対音声の書き起こしを依頼した。 我々の実験では、これらの敵対的な例はState-Of-The-Art Speech-To-Textシステムを騙すが、人間は一貫して音声を選ぶことができる。 この攻撃の可能性は、機械と人間の音声知覚を研究する新しい領域を導入する。

We construct audio adversarial examples on automatic Speech-To-Text systems . Given any audio waveform, we produce an another by overlaying an audio vocal mask generated from the original audio. We apply our audio adversarial attack to five SOTA STT systems: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx. In addition, we engaged human annotators to transcribe the adversarial audio. Our experiments show that these adversarial examples fool State-Of-The-Art Speech-To-Text systems, yet humans are able to consistently pick out the speech. The feasibility of this attack introduces a new domain to study machine and human perception of speech.
公開日: Thu, 4 Feb 2021 05:21:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Audio Adversarial Examples: Attacks Using Vocal Masks 音声反対例:声帯マスクを用いた攻撃 0.76
Ng Hui Xian Lynnette, Tay Kai Yuan, Chua Wei Han, Ng Hui Xian Lynnette、Tay Kai Yuan、Chua Wei Han。 0.78
Lucerne Loke, Ye Danqi, Chua Wan Jun Melissa Lucerne Loke, Ye Danqi, Chua Wan Jun Melissa 0.85
1 2 0 2 b e F 4 1 2 0 2 b e F 4 0.85
] D S . ] D S。 0.79
s c [ 1 v 7 1 4 2 0 sc [ 1 v 7 1 4 2 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract We construct audio adversarial examples on automatic Speech-To-Text systems . 概要 自動音声テキストシステム上での音声対向例を構築した。 0.54
Given any audio waveform, we produce an another by overlaying an audio vocal mask generated from the original audio. 音声波形が与えられると、元の音声から生成された音声音声マスクをオーバーレイして別の音声を生成する。 0.66
We apply our audio adversarial attack to five SOTA STT systems: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx. We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。 0.88
In addition, we engaged human annotators to transcribe the adversarial audio. さらに,人間アノテータに敵対音声の書き起こしを依頼した。 0.63
Our experiments show that these adversarial examples fool State-Of-The-Art Speech-To-Text systems, yet humans are able to consistently pick out the speech. 我々の実験では、これらの敵対的な例はState-Of-The-Art Speech-To-Textシステムを騙すが、人間は一貫して音声を選ぶことができる。 0.48
The feasibility of this attack introduces a new domain to study machine and human perception of speech. この攻撃の可能性は、機械と人間の音声知覚を研究する新しい領域を導入する。 0.70
1 Introduction With the advent of virtual assistants like Google Assistant, Apple’s Siri and Amazon’s Alexa, more attention has been brought to the space of Speech-To-Text (STT), where natural language commands are converted into computer texts. 1 はじめに Google Assistant、AppleのSiri、AmazonのAlexaなどの仮想アシスタントの出現により、自然言語コマンドがコンピュータテキストに変換されるSpeech-To-Text(STT)の領域により多くの注目を集めています。 0.73
These texts carry information from the natural language command, authenticating the virtual assistant to execute an action, such as delivering news, even order products from an online store (Mari, 2019). これらのテキストは自然言語コマンドからの情報を持ち、バーチャルアシスタントを認証して、ニュース配信などのアクションを実行し、オンラインストアから製品を注文します(Mari、2019)。 0.73
Adversarial machine learning is a sub-field of machine learning that has gained much attention in recent years. 敵対的機械学習は機械学習のサブフィールドであり、近年多くの注目を集めている。 0.73
In adversarial machine learning, malicious inputs exploit weaknesses in a trained model or training regime to produce undesired and unforeseen behaviors. 敵対的機械学習では、悪意のある入力は訓練されたモデルや訓練体制の弱点を利用して望ましくない行動を生み出す。 0.62
Goodfellow et. Goodfellowら。 0.69
al. (Goodfellow et al., 2014) proposed the Fast Gradient Sign Method for generating adversarial inputs on image classifiers. アル (Goodfellow et al., 2014)は、画像分類器の逆入力を生成するためのFast Gradient Sign Methodを提案した。 0.52
Jang et. al. (Jang et al., 2017) further perfected gradient based techniques by proposing a technique that could generate minimal perturbations on images in relation to its features, demonstrating the ease of exploitation of image classifiers. Jangら。 アル (jang et al., 2017) 画像の特徴に関する最小限の摂動を生成できる手法を提案し、画像分類器の活用の容易さを示すことにより、勾配に基づく技術をさらに完成させた。 0.56
Most of the research of adversarial machine learning has been centered around the domain of computer vision, and very few techniques are available to create adversarial examples in STT. 敵対的機械学習の研究の大部分は、コンピュータビジョンの領域を中心に行われており、STTにおける敵の例を作成する技術はごくわずかである。 0.76
Carlini and Wagner (Carlini and Wagner, 2018) proposed a gradient based technique adopted from image classification domain and applied it on audio samples, creating adversarial examples by iteratively minimising perturbations introduced into the audio waveform, while ensuring that the waveforms are transcribed as another message. Carlini and Wagner (Carlini and Wagner, 2018) は、画像分類領域から採用した勾配に基づく手法を提案し、音声サンプルに適用し、音声波形に導入された摂動を反復的に最小化し、波形が別のメッセージとして転写されることを保証する。 0.72
Schoenherr et al. Schoenherr et al。 0.79
(Sch¨onherr et al., 2019) uses of psychoacoustic hearing properties to generate perturbations to the audio, to create audio below the hearing threshold such that the attack is inaudible to the listener. (sch sonherr et al., 2019)は、聴覚の摂動を生成するために心理音響的聴覚特性を使用し、攻撃がリスナーに聞こえないような聴覚閾値以下の音声を生成する。 0.77
The generated audio renders the transcription through Kaldi ineffective. 生成されたオーディオは、kaldiによる転写を無効にする。 0.48
Zhang et al. Zhang et al. 0.85
(Zhang et al., 2017) introduced the dolphin attack that modulates voice on ultrasonic carriers to achieve inaudible attack vectors. (Zhang et al., 2017)は、超音波キャリアーの音声を調節して、難聴攻撃ベクトルを達成するイルカ攻撃を導入した。 0.61
While it is validated on popular speech recognition signals, this attack is costly to construct. 一般的な音声認識信号で検証されるが、この攻撃は構築にコストがかかる。 0.72
1.1 Perception of Speech Just like how our brains fill in the gaps in our vision, our brains formulate speech to allow us to understand the speaker better (King, 2007). 1.1 発話の知覚 私たちの脳が視覚のギャップを埋めるのと同じように、私たちの脳は話者をよりよく理解できるようにスピーチを定式化します(King, 2007)。 0.74
In a noisy environment, if we pay enough attention to a speaker and his speech, it is relatively easy for our brains to follow the words. 騒々しい環境では、スピーカーと彼のスピーチに十分な注意を払えば、私たちの脳が言葉に従うことは比較的簡単です。 0.75
Following this concept, as long as any background noise is below a certain threshold in decibels, humans should not fail to formulate a speaker’s この概念に従うと、背景雑音がデシベルの一定の閾値以下である限り、人間はスピーカーの定式化に失敗するべきではない。 0.79
英語(論文から抽出)日本語訳スコア
speech(Darwin, 2007). 講演(Darwin, 2007)。 0.69
On the other hand, STT systems often rely largely on several quantitative qualities of speech in order to accurately transcribe speech. 一方, STT システムは, 音声を正確に書き起こすために, 音声の量的品質に大きく依存することが多い。 0.69
Lacking the language ability to fill in words that were not heard clearly in an audio, STT systems may fail to transcribe accurately in noisy situations. 音声ではっきりと聞こえなかった単語を埋める言語能力が不足しているため、ノイズの多い状況ではSTTシステムは正確に書き起こせない可能性があります。 0.74
Human speech sounds are produced by the different shapes of the vocal tract. 人間の発声音は声道の異なる形状によって生成される。 0.82
Mel-Frequency Cepstral Coefficients (MFCCs) (Muda et al., 2010) and vocal masks are frequently used to represent the shape of the vocal tracts, which manifests itself in the sort time power spectrum, generated by performing ShortTime Fourier Transform (STFT) on the audio signal. Mel-Frequency Cepstral Coefficients (MFCC) (Muda et al., 2010) やボーカルマスクは、音声信号で短時間フーリエ変換 (STFT) を実行することによって生成されたソート時間電力スペクトルで現れる声道の形状を表すために頻繁に使用される。 0.87
STT systems learn these quantitative representation of words on these audio waveforms to transcribe subsequent audio files. STTシステムはこれらの音声波形上の単語の定量的表現を学習し、その後の音声ファイルの書き起こしを行う。
訳抜け防止モード: STTシステムはこれらの音声波形上の単語の定量的表現を学習する 後続の音声ファイルを 書き起こします
0.73
Recent work on convolutional neural networks on mel-frequency spectrograms have shown remarkable accuracy in voice separation (Simpson et al., 2015)(Ikemiya et al., 2016). メル周波数スペクトログラムを用いた畳み込みニューラルネットワークの最近の研究は、音声分離における顕著な精度を示した(Simpson et al., 2015)(池宮ら, 2016)。 0.70
This is largely due to extensive learning of features of vocal masks from Mel-Frequency spectrograms(Lin et al., 2018), and how they differ from other noise, such as background music. これは主に、Mel-Frequency Spectrograms(Lin et al., 2018)からのボーカルマスクの特徴と、バックグラウンド音楽などの他のノイズとどのように異なるかの広範な学習によるものです。 0.76
However, these properties allow adversaries to employ specific attacks against these deep learning systems. しかし、これらの性質により、敵はこれらの深層学習システムに対する特定の攻撃を適用できる。 0.56
1.2 Contributions In this paper, we propose a novel method of creating adversarial examples on audio signals that attacks five State-Of-The-Art (SOTA) STT systems. 1.2 本稿では,5つの最先端(sota)sttシステムを攻撃する音声信号の逆例を作成する新しい手法を提案する。 0.67
These adversarial examples are transcribed as a different message by Speech-To-Text systems, while humans are able to decipher the speech in the signal, rendering STT systems inadequate. これらの逆例はSpeech-To-Textシステムによって異なるメッセージとして記述されるが、人間は信号中の音声を解読することができ、STTシステムは不十分である。 0.62
We are able to achieve this by overlaying a vocal mask on top of the original audio, making use of the inability of these neural networks to differentiate a vocal mask from the original speech, resulting in an average Word Error Rate (WER) of 0.64. 私たちは、元の音声の上に声帯マスクを重ねて、これらのニューラルネットワークを使用して、声帯マスクと元の音声を区別し、平均単語誤り率(wer)を0.64にすることでこれを達成することができる。 0.74
In comparison, the same adversarial audio can be transcribed by human annotators with an average WER of 0.28. 対して、同じ逆オーディオは平均0.28のWERを持つ人間のアノテーションによって書き起こすことができる。 0.64
This is an end-to-end attack, that operates directly on the raw samples that are used as inputs to the neural networks. これはエンドツーエンドの攻撃で、ニューラルネットワークへの入力として使用されるサンプルを直接操作する。 0.78
The tasks that this paper attempts are: この論文が試みるタスクは次のとおりです。 0.67
1. Generation of adversarial audio examples at different decibel levels using Mel-Frequency Cepstral 1. Mel-Frequency Cepstral を用いたデシベルレベルでの対比音声例の生成 0.79
Coefficients (MFCC) properties 係数(MFCC)特性 0.73
2. Generation of targeted adversarial audio examples using the Carlini-Wagner audio attack (Carlini 2. Carlini-Wagner オーディオアタック (Carlini) を用いたターゲット対比音声例の生成 0.82
and Wagner, 2018) and wagner, 2018)。 0.81
3. Transcription of adversarial audio examples using five SOTA speech-to-text transcription neural 3. 5つのSOTA音声-テキスト転写神経を用いた逆聴例の転写 0.75
networks. 4. ネットワーク。 4. 0.78
Comparing transcription output from neural networks with human transcription ニューラルネットワークからの転写出力とヒト転写の比較 0.77
The State-Of-The-Art Speech-To-Text Systems attacked in this paper are: 本論文で攻撃された国語音声テキストシステム 0.69
1. DeepSpeech(Hannun et al., 2014). 1. DeepSpeech (Hannun et al., 2014)。 0.81
An end-to-end speech recognition system built upon Baidu’s DeepSpeech architecture. BaiduのDeepSpeechアーキテクチャをベースにしたエンドツーエンドの音声認識システム。 0.70
To enhance its capabilities, DeepSpeech learns a function that is robust to background noise, reverberation and speaker variation. 能力を向上させるため、deepspeechはバックグラウンドノイズ、残響、話者の変動にロバストな関数を学習する。 0.76
2. Kaldi(Povey et al., 2011). 2. Kaldi (Povey et al., 2011)。 0.81
One of the oldest toolkit for Automatic Speech Recognition (ASR), which integrates with Finite State Transducers and provide extensive linear algebra support built upon the OpenBLAS library. 有限状態変換器と統合し、OpenBLASライブラリ上に構築された広範な線形代数サポートを提供する自動音声認識(ASR)のための最も古いツールキットの1つ。 0.71
Kaldi supports Hidden Markov Models, Gaussian Mixture Models, and neural-network based acoustic modelling. kaldiは隠れマルコフモデル、ガウス混合モデル、ニューラルネットワークに基づく音響モデリングをサポートする。 0.70
3. Wav2letter@anywhere( Pratap et al., 2020). 3. Wav2letter@anywhere( Pratap et al., 2020)。 0.90
Uses ArrayFire tensor library and flashlight machine learning library, enabling training of the LibriSpeech dataset to be completed within minutes. ArrayFireテンソルライブラリとフラッシュライト機械学習ライブラリを使用して、LibriSpeechデータセットのトレーニングを数分で完了する。 0.82
The language model formation uses Time-Depth Separable Convolutions, while the decoder module is a beam-search decoder. 言語モデルはTime-Depth Separable Convolutionsを使用し、デコーダモジュールはビーム検索デコーダである。 0.81
4. Julius(Lee and Kawahara, 2009a). 4. Julius (Lee and Kawahara, 2009a)。 0.87
A large vocabulary continuous speech recognition decoder software based on n-gram and context-dependent hidden markov models developed by the Japanese since 1997(Radenen and Artieres, 2012). 日本語が1997年から開発したn-gramと文脈依存型隠れマルコフモデルに基づく大規模語彙連続音声認識デコーダソフトウェア(Radenen and Artieres, 2012)。 0.83
The decoding algorithm is based on a two-pass tree-trellis 復号アルゴリズムは2パスツリートレリスに基づいている 0.83
英語(論文から抽出)日本語訳スコア
search that incorporates major decoding techniques including tree lexicons, n-gram factoring, enveloped beam search, and deep neural networks. ツリーレキシコン、n-gramファクタリング、エンベロープ検索、ディープニューラルネットワークなど、主要なデコード技術を含む検索。
訳抜け防止モード: ツリーレキシコン、n-グラムファクタリングなどの主要なデコード技術を取り入れた検索 封じられたビーム検索および深いニューラルネットワーク。
0.76
5. CMUSphinx(Huggins Daines et al., 2006). 5. CMUSphinx (Huggins Daines et al., 2006)。 0.81
A collection of speech recognition tools aiming to overcome the constraints of isolated words and small vocabularies. 孤立した単語と小さな語彙の制約を克服することを目的とした音声認識ツールのコレクション。 0.73
Its acoustic model is based on Hidden Markov Models, and speech constraints overcome through function-word-depend ent phone models and generalised triphone models(Kai-Fu, 1989). その音響モデルは隠れマルコフモデルに基づいており、関数ワード依存電話モデルと一般化されたトリフォンモデル(Kai-Fu, 1989)を通じて音声制約が克服される。 0.67
To facilitate future work, we make our dataset available. 将来の作業を容易にするために、データセットを利用可能にします。 0.54
We encourage the reader to listen to our audio 読者が私たちの音声を聴くことを奨励し 0.79
adversarial examples1. 2 Methodology 敵の例1 2 方法論 0.69
This transcription performance comparison of audio adversarial examples between SOTA neural network-based STT models and human annotators is empirically evaluated with a series of experiments. SOTAニューラルネットワークベースのSTTモデルとヒトアノテーションーとの音声対比例の転写性能比較を一連の実験で実証的に評価した。 0.76
This section describes the generation of audio adversarial examples and defines the threat model and evaluation metric, which will subsequently be used for performance comparison between the produced transcription and the original transcription. 本節では,音声の逆例の生成を記述し,脅威モデルと評価指標を定義し,その結果として生成された転写と元の転写の性能比較を行う。 0.79
2.1 Threat Model Given an audio waveform x, target transcription y, and SOTA STT model C, and the human transcription D, our task is to construct another audio waveform x(cid:48) = x + δ so that D(x(cid:48)) = y but C(x(cid:48)) (cid:54)= y. 2.1 脅威モデル オーディオ波形 x, ターゲット転写 y, SOTA STT モデル C, ヒト転写 D を与えられたとき、我々のタスクは別のオーディオ波形 x(cid:48) = x + δ を D(x(cid:48)) = y but C(x(cid:48)) (cid:54)= y とする。 0.87
2.2 Distortion Metric To quantify the distortion introduced by an adversarial audio, we use the Decibels (dB) measure. 2.2 歪み測定 逆音による歪みを定量化するために、デシベル(dB)測度を用いる。 0.77
dB is a logarithmic scale that measures the relative loudness of an audio sample. dBは、オーディオサンプルの相対的なラウドネスを測定する対数スケールである。 0.80
This measure is a relative measure, hence we use the original waveform x as the reference point for the adversarial audio x1. この測度は相対的な測度であるため、元の波形 x を逆オーディオ x1 の基準点として使用します。 0.78
dB(x1) = 10 log dB(x1) = 10 log 0.96
S(x1) S(x) S(x1) S(x) 0.94
, where S is the function that maps x to the intensity of the soundwaves. , ここで S は x を音波の強度にマップする関数です。 0.77
In this paper, most of the distortion is quieter than the original signal, the distortion is thus a negative 本稿では,歪みの大部分は原信号よりも静かであり,歪みは負となる。 0.79
number. This metric may not be a perfect measure of distortion, however the audio distortion may be imperceptible to the humans, as we will show in our experiments, where human annotators fare better than SOTA STT systems. 番号は? この測定基準は、歪みの完璧な尺度ではないかもしれませんが、人間のアノテーションがSOTA STTシステムよりも優れているという私たちの実験で示すように、オーディオ歪みは人間には受け入れられないかもしれません。 0.63
2.2.1 Accuracy Metric In calculation of the accuracy of the transcription, we calculate the Word Error Rate (WER) of the produced transcription against the original transcription provided by the TIMIT dataset. 2.2.1 精度メトリック 転写の精度の計算では、TIMITデータセットによって提供される元の転写に対して生成された転写の単語誤り率(WER)を計算します。 0.75
The WER is a common measure of accuracy in performance measurement in STT systems. WERは、STTシステムにおける性能測定の精度の一般的な測定値です。 0.77
It is derived from the Levenshtein distance, which measures the difference between a sequence of characters through the minimum number of edits. レベンシュテイン距離(levenshtein distance)は、文字列間の差異を最小の編集数で測定する距離である。
訳抜け防止モード: それはLevenshtein距離から派生しています。 最小の編集数を通じて、文字のシーケンス間の差を測定します。
0.72
By measuring the difference in words, transcribed word sequence can have different lengths from the ground truth. 単語の差異を測定することにより、転写された単語列は基底的真理と異なる長さを持つことができる。 0.63
However, this measure does not detail the nature of transcription errors. しかし、この尺度は転写エラーの性質を詳述していない。 0.68
In our experiments, we calculate the Levenshtein distance using the WagnerFisher algorithm (Wagner and Fischer, 1974). 私たちの実験では、WagnerFisherアルゴリズム(Wagner and Fischer, 1974)を使用してLevenshtein距離を計算します。 0.76
It should be noted that the lower the WER, the better the transcription. 注意すべき点は、WERが低いほど、転写が良くなることだ。 0.64
W ER = S + D + I W ER = S + D + I 0.85
N , where S is the number of substitutions, D is the number of deletions, I is the number of insertions, and N is the number of words in the reference. N , S が置換数、D が削除数、I が挿入数、N が参照語数である場合。
訳抜け防止モード: N , ここで、S は置換数である。 Dは削除数です。 私は挿入数です。 そして N は参照中の単語の数です。
0.78
1https://drive.googl e.com/open?id=1ixwuvPrk1H-hveX5HNS WWYGSzx-lWYnC 1https://drive.googl e.com/open?id=1ixwuvPrk1H-hveX5HNS WWYGSzx-lWYnC 0.27
英語(論文から抽出)日本語訳スコア
2.3 Dataset We used the DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus (Garofolo et al., 1993) for construction of adversarial audio and experiments. 2.3 データセット DARPA-TIMIT Audio-Phonetic Continuous Speech Corpus (Garofolo et al., 1993) を用いて逆オーディオと実験を行った。 0.84
This dataset contains time-aligned transcriptions of phonetically rich spoken American English sentences. このデータセットには、音声豊かなアメリカ英語文の時間整合転写が含まれています。 0.53
A hand-verified transcription of the corpus is made available, which serves during the calculation of the model accuracy. モデル精度の計算中に役立つコーパスのハンド検証された転写が利用可能になります。 0.71
This dataset is suitable for our studies as we are studying the spoken speech and our human annotators are well-versed in the English language. このデータセットは、話し言葉を研究しており、人間のアノテーションーは英語に精通しているため、私たちの研究に適しています。 0.67
2.3.1 Generation of obfuscated audio We generate obfuscated audio with the python library Pydub (Jiaaro, 2016). 2.3.1 難読化音声の生成pythonライブラリPydub(Jiaaro, 2016)で難読化音声を生成する。 0.69
Pydub’s AudioSegment object provides several methods that allow easy manipulation of audio, including reading and writing audio files, as well as reversing audio files and overlaying them on other audio files. PydubのAudioSegmentオブジェクトは、オーディオファイルの読み書きや、オーディオファイルの反転、他のオーディオファイルへのオーバーレイなど、オーディオの操作を容易にするいくつかの方法を提供する。 0.78
Let x be the original audio waveform, and δ be the adversarial audio signal generated using AudioSegment as an attack to the original waveform. x を元の音声波形とし、δ を元の波形に対する攻撃として AudioSegment を用いて生成された逆音声信号とする。 0.76
We generate δ by reversing x. x を逆転させて δ を生成する。 0.61
We then overlay the audio δ on to x, that is, x(cid:48) = x + δ. 次に、オーディオδをxにオーバーレイします。つまり、x(cid:48) = x + δです。 0.84
As decibels is a measure of the intensity of the sound, dB(δ) = dB(x). デシベルは音の強度の測度であるので、dB(δ) = dB(x) である。 0.70
We generate five adversarial audio waveforms by varying the intensity of the sound, each time decreasing the intensity of δ. δの強度を減少させるたびに、音の強度を変化させて5つの逆オーディオ波形を生成する。 0.68
The waveforms shall be represented as: dB(δp) = dB(δ) − p, where p is the amount of decibels that δp differs from δ. 波形は次のように表現する: dB(δp) = dB(δ) − p, ここで p は δp と δp が異なるデシベルの量である。 0.88
For example, if the adversarial audio was decreased by 5 decibels, dB(δ−5) = dB(δ)− 5. 例えば、逆音声が5デシベル減少すると、dB(δ−5) = dB(δ)− 5 となる。 0.76
2.3.2 Model set up We constructed the experimental set up of the neural network models as follows: 2.3.2 モデルセットアップ ニューラルネットワークモデルの実験セットアップを以下のように構築しました。 0.81
1. DeepSpeech: Used the provided pre-trained English model, an n-gram language model trained from a corpus of 220 million phrases with a vocabulary of 495,000 words. 1. deepspeech: トレーニング済みの英語モデル、495,000語の語彙を持つ2億2000万句のコーパスからトレーニングされたn-gram言語モデルを使用しました。 0.79
This was trained on the LibriSpeech(Panayoto v et al., 2015), Fisher(Cieri et al., 2004), Switchboard(Godfrey et al., 1992) and Common Voice English(Ardila et al., 2019) datasets, for 233,784 steps where the best validation loss were selected at the end of 75 epochs. これはlibrispeech(panayoto v et al.、2015年)、fisher(cieri et al.、2004年)、switchboard(godfrey et al.、1992年)、common voice english(ardila et al.、2019年)のデータセットで、75エポック末に最高の検証損失が選択された233,784ステップでトレーニングされた。
訳抜け防止モード: これはLibriSpeech(Panayoto v et al , 2015)でトレーニングされた。 Fisher (Cieri et al ., 2004 ), Switchboard (Godfrey et al ., 1992 ) とCommon Voice English(Ardila et al ., 2019 )データセット。 233,784のステップで 最高のバリデーションの損失は 75エポックの終わりに 選ばれた。
0.73
2. Julius: Used the provided pre-trained n-gram language model, in a hybrid Deep Neural Network with Hidden Markov Model based architecture (LM+DNN-HMM). 2. Julius: トレーニング済みのn-gram言語モデルを使用して,Hidden Markov Modelベースアーキテクチャ(LM+DNN-HMM)を使用したハイブリッドニューラルネットワークを開発しました。 0.76
The model with a 262,000 word dictionary and 32 bit Language Model(L¨uscher et al., 2019)(Lee and Kawahara, 2009b). 262,000ワード辞書と32ビット言語モデル(l suscher et al., 2019)(lee and kawahara, 2009b)を持つモデル。 0.84
3. Kaldi: Used the Kaldi pre-trained Aspire Chain Model(Kaldi, 2016) with already compiled HCLG sequence of phoneme decoding graph for inference, trained on Fisher English(Cieri et al., 2004). 3. Kaldi: Kaldi Pre-trained Aspire Chain Model(Kaldi, 2016)は、すでにコンパイル済みのHCLGシーケンスの音素復号グラフを使用して推論を行い、Fisher English(Cieri et al., 2004)で訓練しました。 0.81
HCLG is a hidden-markov finite state transducer representing the lexicon, grammar and phonetic contexts. HCLGは、辞書、文法、音声コンテキストを表す隠れマルコフ有限状態変換器です。 0.70
4. Wav2letter@anywhere: Used the provided inference platform that pre-trains BERT(Devlin et al., 4. Wav2letter@anywhere: BERT(Devlin et al.,)を事前トレーニングする、提供される推論プラットフォームを使用する。 0.72
2018) models with Librispeech dataset(Panayotov et al., 2015). 2018) Librispeechデータセットを用いたモデル(Panayotov et al., 2015)。 0.89
5. CMUSphinx: Used the provided inference platform on python bindings PocketSphinx (Huggins Daines et al., 2006), with the pre-trained US English constructed from Wall Street Journal data using hidden-markov finite state transducers. 5. CMUSphinx: PocketSphinx (Huggins Daines et al., 2006) の python バインディングに提供される推論プラットフォームを使用し、ウォールストリートジャーナルのデータから、隠れマルコフ有限状態変換器を使用して構築された米国英語を学習しました。
訳抜け防止モード: 5. cmusphinx : 提供されるpythonバインディングの推論プラットフォームとして pocketsphinx ( huggins daines et al ., 2006) を使用した。 the pre - training us english built from wall street journal data using hidden-markov finite state transducers (英語)
0.82
2.3.3 Baseline Adversarial Attack We used the Carlini-Wagner (CW) audio adversarial attack as the baseline (Carlini and Wagner, 2018) audio adversarial attack. 2.3.3 Baseline Adversarial Attack Carlini-Wagner (CW) audio adversarial attackをベースライン(Carlini and Wagner, 2018) Audio adversarial attackとして使用しました。 0.82
This attack adds a small perturbation that are quieter than the original signal to the original audio which changes the transcribed result when passed through DeepSpeech. この攻撃は、元の信号よりも静かな小さな摂動を元の音声に追加し、deepspeechを通過すると書き起こされた結果を変更する。 0.72
We show that our audio attacks surpass the CW attack. 我々は、オーディオ攻撃がCW攻撃を超えることを示しています。 0.61
英語(論文から抽出)日本語訳スコア
2.3.4 Human Audio Transcription We engaged seven people from ages 25-30 to transcribe the audio for us. 2.3.4 Human Audio Transcription 25-30歳から7人で音声をトランスクリブしました。 0.68
Each person transcribed 34 audio files of a single type of obfuscation. それぞれの人は34のオーディオファイルを1種類の難読化で書き起こした。 0.63
These audio files were randomly chosen from 2 dialect groups of the DARPA-TIMIT corpus’ test directory. これらの音声ファイルはDARPA-TIMIT corpus テストディレクトリの2つの方言群からランダムに選択された。 0.71
As the audio files were primarily in English, to reduce problems with understanding the text, we engaged people whose first spoken and written language is English. 音声ファイルは、主に英語で書かれており、テキストの理解に関する問題を減らすため、最初に話し言葉と書かれた言語が英語である人々と婚約した。 0.68
We asked the annotators to listen to the samples via headphones. 私たちはアノテーターにヘッドフォンでサンプルを聞くように頼んだ。 0.74
The task was to type all words of the audio sample into a blank text field without assistance from auto-complete or grammar and spell-checking. タスクは、自動補完または文法とスペルチェックの助けなしに、オーディオサンプルのすべての単語を空白のテキストフィールドに入力することでした。 0.73
Annotators often repeated the audio samples in order to enter a complete sentence. アノテーションーはしばしば完全な文を入力するためにオーディオサンプルを繰り返します。 0.73
In a post-processing phase, we removed symbols and new lines from the transcript before calculating the WER. 後処理フェーズでは、WERを計算する前に、文字と新しい行を書き起こしから取り除いた。 0.62
2.4 Results and Analysis We present the mean WER for the various transcription systems in Table 1. 2.4 結果と分析 表1における各種転写システムの平均 WER について述べる。 0.82
We note that DeepSpeech has a WER that is greater than 1.0 because there are more words than the number of words in the reference speech. DeepSpeechは、参照音声の単語数よりも多くの単語があるので、1.0より大きいWERを持っていることに注意してください。 0.77
This is likely due to the fact that DeepSpeech was trained on a dataset that has more words than the TIMIT dataset. これはおそらく、DeepSpeechがTIMITデータセットよりも多くの単語を持つデータセットでトレーニングされたためだろう。 0.75
In terms of audio adversarial attacks, we note that the attack of x + δ−15 produces the best balance between fooling neural STT systems and human identification of the audio. オーディオ敵対攻撃の点では、x + δ−15の攻撃は、欺く神経STTシステムとオーディオの人間の識別との間の最適なバランスを生成することに注意してください。 0.68
At the same time, x + δ−15 has a higher WER than x + CW, proving our attack to be more effective at fooling neural network systems as compared to the baseline Carlini-Wagner attack. 同時に、x + δ−15 は x + CW よりも高い WER を持ち、ベースラインの Carlini-Wagner 攻撃と比較して、私たちの攻撃はニューラルネットワークシステムを欺くのに効果的であることが証明されている。 0.67
Audio Files DeepSpeechJulius オーディオファイル DeepSpeechJulius 0.83
Kaldi x x + δ0 カルディ x x + δ0 0.79
x + δ−5 x + δ−10 x + δ−5 x + δ−10 0.78
x + δ−15 x + δ−20 x + δ−15 x + δ−20 0.78
x + CW 0.13 (0.15) 1.03 (0.26) 0.82 (0.27) 0.63 (0.35) 0.35 (0.28) 0.23 (0.24) 0.49 (0.31) x + CW 0.13 (0.15) 1.03 (0.26) 0.82 (0.27) 0.63 (0.35) 0.35 (0.28) 0.23 (0.24) 0.49 (0.31) 0.72
0.76 (0.31) 0.99 (0.19) 0.93 (0.17) 0.85 (0.26) 0.78 (0.29) 0.79 (0.29) 0.84 (0.26) 0.76 (0.31) 0.99 (0.19) 0.93 (0.17) 0.85 (0.26) 0.78 (0.29) 0.79 (0.29) 0.84 (0.26) 0.60
0.32 (0.20) 0.90 (0.18) 0.77 (0.22) 0.62 (0.27) 0.48 (0.28) 0.37 (0.23) 0.49 (0.26) 0.32 (0.20) 0.90 (0.18) 0.77 (0.22) 0.62 (0.27) 0.48 (0.28) 0.37 (0.23) 0.49 (0.26) 0.60
wav2letter@ anywhere 0.16 (0.17) wav2letter@ anywhere 0.16 (0.17) 0.67
0.87 (0.22) 0.87 (0.22) 0.65
0.65 (0.22) 0.65 (0.22) 0.65
0.42 (0.23) 0.42 (0.23) 0.65
0.26 (0.20) 0.26 (0.20) 0.65
0.18 (0.18) 0.18 (0.18) 0.65
0.28 (0.25) 0.28 (0.25) 0.65
CMUSphinxHumans CMUSphinxHumans 0.85
0.35 (0.31) 1.26 (0.40) 1.02 (0.40) 0.94 (0.41) 0.68 (0.32) 0.63 (0.33) 0.85 (0.36) 0.35 (0.31) 1.26 (0.40) 1.02 (0.40) 0.94 (0.41) 0.68 (0.32) 0.63 (0.33) 0.85 (0.36) 0.60
0.07 (0.10) 0.77 (0.36) 0.36 (0.30) 0.28 (0.29) 0.10 (0.11) 0.08 (0.11) 0.10 (0.14) 0.07 (0.10) 0.77 (0.36) 0.36 (0.30) 0.28 (0.29) 0.10 (0.11) 0.08 (0.11) 0.10 (0.14) 0.60
Table 1: Mean (Standard Deviation) WER of transcriptions for our experiments 表1:我々の実験における転写量の平均(標準偏差) 0.83
3 Discussion Upon investigation, SOTA STT systems fail to transcribe our attacks accurately, which can be represented in terms of the attack audio’s similarity with the original, and audio signal properties. 3 検討後、SOTA STTシステムは、攻撃音声と元のオーディオ信号特性の類似性の観点から表現できる、私たちの攻撃を正確に書き起こすことができません。 0.74
3.0.1 Cosine Similarity Analysis We posit that our attack can successfully fool STT systems due to the similarity of the attack to its original audio. 3.0.1 Cosine similarity Analysis 我々の攻撃は、攻撃と元のオーディオの類似性により、STTシステムをうまく騙すことができると仮定する。 0.71
We note that the mean normalised cosine similarity of our attacked audio and the original is very close to 1.0, surpassing the CW attacked audio. 攻撃されたオーディオとオリジナルとの平均的なコサイン類似性は、CW攻撃されたオーディオをはるかに上回る1.0に非常に近い。 0.67
Table 2 shows the similarities of our attacks. 表2は攻撃の類似性を示しています 0.76
3.0.2 Audio Signal Analysis We analyse the original signal and our adversarial audio signal using audio signal analysis methods: Fast Fourier Transform (FFT) and Spectrograms. 3.0.2 音声信号解析 音声信号解析法(FFT/Fast Fourier Transform)とスペクトログラム(Spectrograms)を用いて、元の信号と敵の音声信号を解析する。 0.72
英語(論文から抽出)日本語訳スコア
Audio File Mean オーディオファイル 意味 0.73
x + δ0 x + δ−5 x + δ−10 x + δ−15 x + δ−20 x + CW x + δ0 x + δ−5 x + δ−10 x + δ−15 x + δ−20 x + CW 0.80
0.999930 0.999962 0.999979 0.999989 0.999994 0.999961 0.999930 0.999962 0.999979 0.999989 0.999994 0.999961 0.43
Standard Deviation 0.0000337 0.0000216 0.0000142 0.0000095 0.0000063 0.0000229 標準偏差 0.0000337 0.0000216 0.0000142 0.0000095 0.0000063 0.0000229 0.47
Table 2: Cosine similarities between the original audio and the adversarial audio 表2:cosine similarities between the original audio and the adversarial audio 0.77
Figure 1 presents the spectrograms and FFT plots of our audio adversarial examples. 図1は、我々のオーディオ敵の例のスペクトログラムとfftプロットを示します。 0.69
We note that from the spectrograms generated from x + CW, the CW attack possess clear vocal masks of the original audio, which makes it possible to retrieve some semblance of the original audio using a vocal mask technique, built upon computer vision principles. x + cw から生成されたスペクトログラムから、cw 攻撃は元の音声の明瞭な声帯マスクを持ち、コンピュータビジョンの原則に基づいて構築された声帯マスク技術を用いて、元の音声の類似性を取得することができる。 0.75
Our attacks obfuscate the original audio by appearing as the original audio, yet in the opposite direction, hence are able to fool techniques that employ vocal mask analyses. 我々の攻撃は、オリジナルオーディオとして現れることでオリジナルオーディオを難読化させるが、反対方向に出るので、ボーカルマスク分析を用いるテクニックを騙すことができる。 0.69
In the case of the FFT plots, the plot generated from x + CW is hugely similar to the plot of x, which means it is possible to retrieve x from the adversarial audio. FFTプロットの場合、x + CW から生成されるプロットは x のプロットと非常によく似ている。
訳抜け防止モード: FFTプロットの場合、x + CW から生成されるプロットは x のプロットと非常によく似ている。 つまり 相手の音声から x を取り出すことができる。
0.65
However, our adversarial audio has different FFT forms compared to x, since our attack introduces additional audio signals, thereby preventing attempts to recover the original audio. しかし,本攻撃では新たな音声信号が付加され,元の音声を復元しようとする試みが防止されるため,xとfft形式が異なる。 0.69
3.0.3 Perception of Speech 3.0.3 音声の知覚 0.55
Our results reflect that humans are better at the transcription task, regardless of obfuscation. 本研究の結果は, 難読化によらず, 人間は転写作業に長けていることを反映している。 0.46
Humans have innate experience with language and are able to predict words in a sentence even if they did not hear it from the audio. 人間は自然言語の経験があり、音声から聞こえなくても文章中の単語を予測できます。
訳抜け防止モード: 人間は言語に本質的な経験を持ち、 音声から聞こえなくても、文章中の単語を予測できます。
0.69
This phenomenon is known as auditory perceptual restoration, where the brain fills in missing information in areas where noise obstructs portions of sounds (Bidelman and Patro, 2016)(King, 2007). この現象は聴覚の知覚回復と呼ばれ、ノイズが音の一部を妨げる領域(Bidelman and Patro, 2016)(King, 2007)の欠落した情報で脳が満たされます。 0.81
Commonly observed in a conversation with loud background noise, this phonemic restoration effect occurs where the brain restores sounds missing from a speech signal. 大きな背景雑音との会話でよく見られるこの音波回復効果は、脳が音声信号から欠落した音を回復する。
訳抜け防止モード: 大きな背景雑音との会話で一般的に観察される この音韻復元効果は 脳は音声信号から失われた音を復元する。
0.79
This effect is typically observed when missing phonemes in an auditory signal are replace with noises that masks the original phonemes, creating an auditory ambiguity(Repp, 1992)(Groppe et al., 2010). この効果は、通常、聴覚信号の音素が欠けているときに、元の音素をマスキングするノイズに置き換えられ、聴覚曖昧性(Repp, 1992)(Groppe et al., 2010)が生じる。 0.72
In the case of our experiments, our attack audio masks some original audio, which causes perceptual restoration to kick in, where the humans perform better transcriptions due to this phenomenon. 我々の実験の場合、我々の攻撃音声はオリジナルの音声をマスクし、それによって知覚的修復が起動し、人間はこの現象によりより良い転写を行う。 0.70
3.0.4 Future Work 3.0.4 今後の作業 0.46
From this work, we acknowledge that humans possess an innate language ability which allowed them to perform better in the transcription task. この研究から、私たちは人間が自然言語能力を持っていることを認め、転写タスクでよりうまく機能できるようにします。 0.61
We posit that future STT systems can include predictive abilities, such as introducing generative models with attention gates that govern which audio features have more importance, thereby allowing STT systems to predict transcriptions and at the same time inference them directly from the audio files. 今後のSTTシステムは、どの音声特徴が重要視されるかを管理する注意ゲートを備えたジェネレーションモデルを導入することで、STTシステムが転写を予測し、オーディオファイルから直接推論できるようにするなど、予測能力を含むことができると考えています。 0.73
4 Conclusion We demonstrate a novel method of creating audio adversarial examples by reversing the audio signal and overlaying it on the original speech. 4 結論 本稿では,音声信号を反転して元の音声にオーバレイすることで,新たな音声対向例を生成する手法を示す。 0.69
We present evidence that these adversarial examples render vocal masks obsolete due to the inability to identify the reversed audio from the true audio. 実音声から逆音声を識別できないため,これらの逆例が声帯マスクを時代遅れにする証拠を示す。 0.67
Our experiments show that these adversarial examples fool State-Of-The-Art Speech-To-Text systems, yet humans are able to consistently pick out the speech. 我々の実験では、これらの敵対的な例はState-Of-The-Art Speech-To-Textシステムを騙すが、人間は一貫して音声を選ぶことができる。 0.48
We hope that future work will continue to investigate audio adversarial examples, and improve STT systems with predictive language abilities that humans possess. 今後は、音声の逆転例を調査し、人間が有する予測言語能力でSTTシステムを改善していくことを願っています。 0.68
英語(論文から抽出)日本語訳スコア
References Rosana Ardila, Megan Branson, Kelly Davis, Michael Henretty, Michael Kohler, Josh Meyer, Reuben Morais, Lindsay Saunders, Francis M. Tyers, and Gregor Weber. 参照: Rosana Ardila, Megan Branson, Kelly Davis, Michael Henretty, Michael Kohler, Josh Meyer, Reuben Morais, Lindsay Saunders, Francis M. Tyers, Gregor Weber. 0.84
2019. Common voice: A massively-multilingu al speech corpus. 2019. 共通音声:巨大な多言語音声コーパス。 0.80
Gavin M. Bidelman and Chhayakanta Patro. Gavin M. BidelmanとChhayakanta Patro。 0.93
2016. Auditory perceptual restoration and illusory continuity corre- 2016. 聴覚の知覚的復元と照明的連続性- 0.70
lates in the human brainstem. 人間の脳幹に遅刻する。 0.75
Brain Research, 1646:84 – 90. 脳研究、1646:84 – 90。 0.76
Nicholas Carlini and David A. Wagner. ニコラス・カーライニとデヴィッド・a・ワグナー。 0.46
2018. Audio adversarial examples: Targeted attacks on speech-to-text. 2018. audio adversarial examples: target attack on speech-to-text。 0.80
2018 IEEE Security and Privacy Workshops (SPW), pages 1–7. 2018 IEEE Security and Privacy Workshops (SPW)、1-7ページ。 0.89
Christopher Cieri, David Miller, and Kevin Walker. Christopher Cieri、David Miller、Kevin Walker。 0.72
2004. The fisher corpus: a resource for the next generations 2004. 漁師コーパス:次世代のための資源。 0.75
of speech-to-text. 音声からテキストへ。 0.47
In LREC. C. J. Darwin. LREC所属。 C.J.ダーウィン。 0.62
2007. Listening to speech in the presence of other sounds. 2007. 他の音の存在下での音声の聴取。 0.79
Philosophical Transactions of the Royal Society B: Biological Sciences, 363:1011 – 1021. 王室の哲学的取引 社会b:生物科学、363:1011 - 1021。 0.70
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.78
2018. Bert: Pre-training of deep bidirec- 2018. Bert:Deep bidirecの事前トレーニング- 0.85
tional transformers for language understanding. 言語理解のための任意トランスフォーマー。 0.68
J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallett, and N. L. Dahlgren. J.S. Garofolo、L.F. Lamel、W.M. Fisher、J.G. Fiscus、D.S. Pallett、N.L. Dahlgren。 0.76
1993. Darpa timit 1993. ダルパ・ティミット 0.56
acoustic phonetic continuous speech corpus cdrom. 音響音声連続音声コーパスcdrom。 0.55
J. J. Godfrey, E. C. Holliman, and J. McDaniel. J・J・ゴドフリー、E・C・ホリマン、J・マクダニエル。 0.55
1992. Switchboard: telephone speech corpus for research and development. 1992. スイッチボード:研究開発のための電話のスピーチコーパス。 0.79
In [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages 517–520 vol.1, March. 手順] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing, Volume 1, Page 517–520 vol.1, March 0.86
Ian J. Goodfellow, Jonathon Shlens, and Christian Szegedy. Ian J. Goodfellow、Jonathon Shlens、Christian Szegedy。 0.77
2014. Explaining and harnessing adversarial exam- 2014. 対向試験の説明と活用- 0.73
ples. David Groppe, Marvin Choi, Tiffany Huang, Joseph Schilz, Ben Topkins, Thomas Urbach, and Marta Kutas. ples. David Groppe, Marvin Choi, Tiffany Huang, Joseph Schilz, Ben Topkins, Thomas Urbach, Marta Kutas 0.79
2010. The phonemic restoration effect reveals pre-n400 effect of supportive sentence context in speech perception. 2010. 音韻復元効果は,音声知覚における支援文文脈の影響を明らかにする。 0.73
Brain research, 1361:54–66, 11. 脳研究, 1361:54-66, 11。 0.71
Awni Y. Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, and Andrew Y. Ng. Awni Y. Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, Andrew Y. Ng 0.84
2014. Deep speech: Scaling up end-to-end speech recognition. 2014. deep speech: エンドツーエンドの音声認識をスケールアップする。 0.76
ArXiv, abs/1412.5567. ArXiv, abs/1412.5567。 0.59
David Huggins Daines, M. Kumar, A. Chan, A.W. David Huggins Daines, M. Kumar, A. Chan, A.W. 0.90
Black, M. Ravishankar, and Alexander Rudnicky. 黒、M. Ravishankar、Alexander Rudnicky。 0.75
2006. Pocketsphinx: A free, real-time continuous speech recognition system for hand-held devices. 2006. Pocketsphinx: ハンドヘルドデバイス用の無料のリアルタイム連続音声認識システム。 0.84
volume 1, pages I – I, 06. 巻 1 ページ I – I, 06。 0.57
Yukara Ikemiya, Katsutoshi Itoyama, and Kazuyoshi Yoshii. 池宮雄香、伊藤山勝俊、吉井一吉。 0.48
2016. Singing voice separation and vocal f0 estimation based on mutual combination of robust principal component analysis and subharmonic summation. 2016. 頑健な主成分分析と低調波和の相互結合に基づく歌声分離と音声f0推定 0.77
IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(11):2084–2095, Nov. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(11):2084–2095, Nov. 0.94
Uyeong Jang, Xi Wu, and Somesh Jha. Uyeong Jang、Xi Wu、Somesh Jha。 0.65
2017. Objective metrics and gradient descent algorithms for adversarial examples in machine learning. 2017. 機械学習における対比例の客観的指標と勾配降下アルゴリズム 0.79
In Proceedings of the 33rd Annual Computer Security Applications Conference, ACSAC 2017, page 262–277, New York, NY, USA. 第33回Computer Security Applications Conference, ACSAC 2017, page 262–277, New York, NY, USA (英語)
訳抜け防止モード: 第33回Computer Security Applications Conference, ACSAC 2017に参加して 公式サイト 262-277, New York, NY, USA.
0.87
Association for Computing Machinery. コンピュータ機械協会会員。 0.63
Jiaaro. 2016. ジアロ。 2016. 0.72
Pydub by jiaaro. jiaaroによるPydub。 0.82
Last Accessed: 15 January 2020. 最終アクセス:2020年1月15日。 0.69
Lee Kai-Fu. 1989. 李海風。 1989. 0.72
The development of the sphinx system. sphinxシステムの開発。 0.56
In Automatic Speech Recognition, volume 62. 自動音声認識では第62巻。 0.69
Springer US. Kaldi. ばね アメリカ。 カルディ。 0.56
2016. Aspire chain model. 2016. aspire chainモデル。 0.81
https://kaldi-asr.or g/models/m1. https://kaldi-asr.or g/models/m1。 0.35
Andrew King. アンドリュー・キング。 0.70
2007. Auditory neuroscience: Filling in the gaps. 2007. 聴覚神経科学:隙間を埋める。 0.75
Current biology : CB, 17:R799–801, 10. 現在の生物学 : CB, 17:R799–801, 10。 0.78
Akinobu Lee and Tatsuya Kawahara. 2009a. 李明信と川原達也。 2009年。 0.59
Recent development of open-source speech recognition engine julius. オープンソースの音声認識エンジンjuliusの開発動向 0.70
Proceedings of the 2009 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, 01. 2009年アジア太平洋信号情報処理協会年次サミットおよび会議の進行、01。 0.79
Akinobu Lee and Tatsuya Kawahara. 2009b. 李明信と川原達也。 2009年。 0.58
Recent development of open-source speech recognition engine julius. オープンソースの音声認識エンジンjuliusの開発動向 0.70
Kin Wah Edward Lin, T. キン・ワー・エドワード・リン t. 0.58
BalamuraliB., Enyan Koh, Simon Lui, and Dorien Herremans. BalamuraliB.、Enyan Koh、Simon Lui、Dorien Herremans。 0.73
2018. Singing voice separation using a deep convolutional neural network trained by ideal binary mask and cross entropy. 2018. 理想的な二乗マスクとクロスエントロピーで訓練された深部畳み込みニューラルネットワークによる歌声分離 0.79
Neural Computing and Applications, pages 1–14. ニューラルコンピューティングとアプリケーション、1-14ページ。 0.73
英語(論文から抽出)日本語訳スコア
Christoph L¨uscher, Eugen Beck, Kazuki Irie, Markus Kitza, Wilfried Michel, Albert Zeyer, Ralf Schl¨uter, and Christoph L suscher, Eugen Beck, Kazuki Irie, Markus Kitza, Wilfried Michel, Albert Zeyer, Ralf Schl suter, and 0.88
Hermann Ney. Hermann Ney 0.58
2019. Rwth asr systems for librispeech: Hybrid vs attention. 2019. librispeechのためのRwth asrシステム:ハイブリッド対注意。 0.85
Interspeech 2019, Sep. Interspeech 2019、9月。 0.84
Alex Mari. 2019. アレックス・マリ。 2019. 0.76
Voice commerce: Understanding shopping-related voice assistants and their effect on brands. 音声コマース:ショッピング関連の音声アシスタントとそのブランドへの影響を理解する。 0.73
10. Lindasalwa Muda, Mumtaj Begam, and Irraivan Elamvazuthi. 10. Lindasalwa Muda、Mumtaj Begam、Irraivan Elamvazuthi。 0.72
2010. Voice recognition algorithms using mel 2010. melを用いた音声認識アルゴリズム 0.81
frequency cepstral coefficient (mfcc) and dynamic time warping (dtw) techniques. 周波数ケプストラム係数(mfcc)と動的時間ウォーピング(dtw)技術。 0.70
J Comput, 2, 03. J Comput, 2, 03。 0.76
V. Panayotov, G. Chen, D. Povey, and S. Khudanpur. V. Panayotov、G. Chen、D. Povey、S. Khudanpur。 0.86
2015. Librispeech: An asr corpus based on public domain audio books. 2015. Librispeech: パブリックドメインのオーディオブックに基づいたアサーコーパス。 0.72
In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5206–5210, April. 2015年、IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、ページ5206–5210、4月。 0.85
Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget, Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motlicek, Yanmin Qian, Petr Schwarz, Jan Silovsky, Georg Stemmer, and Karel Vesely. Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget, Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motlicek, Yanmin Qian, Petr Schwarz, Jan Silovsky, Georg Stemmer, Karel Vesely。 0.80
2011. The kaldi speech recognition toolkit. 2011. kaldi音声認識ツールキット。 0.72
In IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. IEEE 2011 Workshop on Automatic Speech Recognition and Understanding(英語) 0.79
IEEE Signal Processing Society, December. IEEE信号処理協会、12月。 0.75
IEEE Catalog No. IEEE Catalog No。 0.81
: CFP11SRW-USB. : CFP11SRW-USB。 0.53
Vineel Pratap, Qiantong Xu, Vineel Pratap、Qiantong Xu。 0.72
2020. taliy Liptchinsky, Gabriel Synnaeve, and Ronon Collobert. 2020. taliy Liptchinsky、Gabriel Synnaeve、Roonon Collobert。 0.76
recognition using convnets. convnets による認識。 0.79
Scaling-up-online-sp eech-recognition-usi ng-ConvNets.pdf. Scaling-up-online-sp eech-recognition-usi ng-ConvNets.pdf 0.20
Jacob Kahn, Gilad Avidov, Tatiana Likhomanenko, Awni Hannun, ViScaling up online speech https://research.fb. com/wp-content/uploa ds/2020/01/ Jacob Kahn, Gilad Avidov, Tatiana Likhomanenko, Awni Hannun, ViScaling up online speech https://research.fb. com/wp-content/uploa ds/2020/01/ 0.64
Mathieu Radenen and Thierry Artieres. Mathieu RadenenとThierry Artieres。 0.77
2012. Contextual hidden markov models. 2012. コンテキストに隠れたMarkovモデル。 0.73
pages 2113–2116, 03. 2113-2116、03ページ。 0.71
Bruno H. Repp. Bruno H. Repp 0.79
1992. Perceptual restoration of a “missing” speech sound: Auditory induction or illusion? 1992. 難聴」音声の知覚的復元:聴覚誘発か錯覚か? 0.68
volume 51, page 14–32, January. 51巻、14-32ページ、1月。 0.54
Lea Sch¨onherr, Katharina Kohls, Steffen Zeiler, Thorsten Holz, and Dorothea Kolossa. Lea Sch Zonherr, Katharina Kohls, Steffen Zeiler, Thorsten Holz, Dorothea Kolossa 0.70
2019. Adversarial attacks against automatic speech recognition systems via psychoacoustic hiding. 2019. 心理音響隠蔽による自動音声認識システムに対する敵対的攻撃 0.81
In Network and Distributed System Security Symposium (NDSS). In Network and Distributed System Security Symposium (NDSS) に参加。 0.88
Andrew J. R. Simpson, Gerard Roma, and Mark D. Plumbley. Andrew J. R. Simpson、Gerard Roma、Mark D. Plumbley。 0.87
2015. Deep karaoke: Extracting vocals from 2015. ディープカラオケ:ボーカルを抽出する 0.75
musical mixtures using a convolutional deep neural network. 畳み込みニューラルネットワークを用いた音楽混合物。 0.70
Robert A. Wagner and Michael J. Fischer. ロバート・A・ワグナーとマイケル・J・フィッシャー。 0.56
1974. The string-to-string correction problem. 1974. 文字列間の補正問題。 0.75
J. ACM, 21(1):168–173, J. ACM, 21(1):168–173 0.88
January. Guoming Zhang, Chen Yan, Xiaoyu Ji, Tianchen Zhang, Taimin Zhang, and Wenyuan Xu. 1月。 Guoming Zhang、Chen Yan、Xiaoyu Ji、Tianchen Zhang、Taimin Zhang、およびWenyuan Xu。 0.68
2017. Dolphinattack: Inaudible voice commands. 2017. Dolphinattack: 聞こえない音声コマンド。 0.86
In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, page 103–117, New York, NY, USA. 2017 acm sigsac conference on computer and communications security, page 103–117, new york, ny, usa. (英語)
訳抜け防止モード: 2017 ACM SIGSAC Conference on Computer and Communications Securityの開催にあたって page 103–117 , ニューヨーク, ニューヨーク, 米国。
0.89
Association for Computing Machinery. コンピュータ機械協会会員。 0.63
英語(論文から抽出)日本語訳スコア
Original audio x オリジナルオーディオx 0.67
x + CW x + δ0 x + CW x + δ0 0.90
x + δ−15 Figure 1: Mel-frequency spectrograms and FFT overlays of audio samples. x + δ−15 図1: 音声サンプルのメル周波数スペクトログラムとFFTオーバーレイ。 0.80
We observe that the original vocal masks are preserved in the CW attacks, but our attacks generate additional vocal masks that can effectively fool vocal mask analysis methods. 従来のボーカルマスクはCW攻撃で保存されているが,我々の攻撃は音声マスク分析手法を効果的に騙すことができる追加のボーカルマスクを生成する。 0.73
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。