論文の概要: Real-Time Neural Voice Camouflage
- arxiv url: http://arxiv.org/abs/2112.07076v1
- Date: Tue, 14 Dec 2021 00:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:48:28.827221
- Title: Real-Time Neural Voice Camouflage
- Title(参考訳): リアルタイムニューラル音声カモフラージュ
- Authors: Mia Chiquier, Chengzhi Mao, Carl Vondrick
- Abstract要約: 本稿では,自動音声認識システムを用いて,人の声を空中に浮かび上がらせる手法を提案する。
標準的な敵攻撃はリアルタイムストリーミングでは有効ではない。
予測攻撃を導入し、将来最も効果的となる攻撃を予測することでリアルタイムのパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 23.171336558901118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition systems have created exciting possibilities for
applications, however they also enable opportunities for systematic
eavesdropping. We propose a method to camouflage a person's voice over-the-air
from these systems without inconveniencing the conversation between people in
the room. Standard adversarial attacks are not effective in real-time streaming
situations because the characteristics of the signal will have changed by the
time the attack is executed. We introduce predictive attacks, which achieve
real-time performance by forecasting the attack that will be the most effective
in the future. Under real-time constraints, our method jams the established
speech recognition system DeepSpeech 4.17x more than baselines as measured
through word error rate, and 7.27x more as measured through character error
rate. We furthermore demonstrate our approach is practically effective in
realistic environments over physical distances.
- Abstract(参考訳): 音声認識システムはアプリケーションにエキサイティングな可能性をもたらしてきたが、体系的な盗聴の機会も得る。
室内の人との会話を不便にすることなく、これらのシステムから人の声を空中からカモフラージュする方法を提案する。
通常の敵攻撃は、攻撃が実行されるまでに信号の特性が変化するため、リアルタイムストリーミング状況では有効ではない。
我々は,今後最も効果的となる攻撃を予測することにより,リアルタイム性能を実現する予測攻撃を提案する。
リアルタイム制約下では,確立された音声認識システムdeepspeech 4.17xを,単語誤り率で測定したベースラインと,文字誤り率で測定した7.27倍をジャムする。
さらに,本手法は物理的距離を超える現実的な環境において有効であることを示す。
関連論文リスト
- Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Adversarial Representation Learning for Robust Privacy Preservation in
Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。
本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。
提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文 参考訳(メタデータ) (2023-04-29T08:39:55Z) - Shadows can be Dangerous: Stealthy and Effective Physical-world
Adversarial Attack by Natural Phenomenon [79.33449311057088]
我々は、非常に一般的な自然現象であるシャドーによって摂動が生じる新しい種類の光対角運動例について研究する。
我々は,シミュレーション環境と実環境の両方において,この新たな攻撃の有効性を広く評価した。
論文 参考訳(メタデータ) (2022-03-08T02:40:18Z) - Attack on practical speaker verification system using universal
adversarial perturbations [20.38185341318529]
本研究は,提案する対人摂動を,相手が話しているときに別個の音源として演奏することにより,現実的な話者検証システムにより,相手を対象話者と誤認することを示す。
2段階のアルゴリズムが提案され、テキストに依存しない普遍的対向摂動を最適化し、認証テキスト認識にはほとんど影響を与えない。
論文 参考訳(メタデータ) (2021-05-19T09:43:34Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - VenoMave: Targeted Poisoning Against Speech Recognition [30.448709704880518]
VENOMAVEは、音声認識に対する最初の訓練時間中毒攻撃である。
我々はTIDIGITSと音声コマンドの2つのデータセットに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-10-21T00:30:08Z) - Towards Resistant Audio Adversarial Examples [0.0]
生成プロセスの欠陥により、最先端の逆例生成手法が過度な適合を引き起こすことが判明した。
我々は,この欠陥を緩和するアプローチを考案し,異なるオフセットを持つ逆例の生成を改善する方法を見出した。
論文 参考訳(メタデータ) (2020-10-14T16:04:02Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Detecting Audio Attacks on ASR Systems with Dropout Uncertainty [40.9172128924305]
我々の防衛は、最適化された摂動と周波数マスキングによって生成された攻撃を検出することができることを示す。
我々は、MozillaのCommonVoiceデータセット、UrbanSoundデータセット、およびLibriSpeechデータセットの抜粋に対する防御をテストする。
論文 参考訳(メタデータ) (2020-06-02T19:40:38Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。