論文の概要: Real-Time Neural Voice Camouflage
- arxiv url: http://arxiv.org/abs/2112.07076v1
- Date: Tue, 14 Dec 2021 00:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:48:28.827221
- Title: Real-Time Neural Voice Camouflage
- Title(参考訳): リアルタイムニューラル音声カモフラージュ
- Authors: Mia Chiquier, Chengzhi Mao, Carl Vondrick
- Abstract要約: 本稿では,自動音声認識システムを用いて,人の声を空中に浮かび上がらせる手法を提案する。
標準的な敵攻撃はリアルタイムストリーミングでは有効ではない。
予測攻撃を導入し、将来最も効果的となる攻撃を予測することでリアルタイムのパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 23.171336558901118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition systems have created exciting possibilities for
applications, however they also enable opportunities for systematic
eavesdropping. We propose a method to camouflage a person's voice over-the-air
from these systems without inconveniencing the conversation between people in
the room. Standard adversarial attacks are not effective in real-time streaming
situations because the characteristics of the signal will have changed by the
time the attack is executed. We introduce predictive attacks, which achieve
real-time performance by forecasting the attack that will be the most effective
in the future. Under real-time constraints, our method jams the established
speech recognition system DeepSpeech 4.17x more than baselines as measured
through word error rate, and 7.27x more as measured through character error
rate. We furthermore demonstrate our approach is practically effective in
realistic environments over physical distances.
- Abstract(参考訳): 音声認識システムはアプリケーションにエキサイティングな可能性をもたらしてきたが、体系的な盗聴の機会も得る。
室内の人との会話を不便にすることなく、これらのシステムから人の声を空中からカモフラージュする方法を提案する。
通常の敵攻撃は、攻撃が実行されるまでに信号の特性が変化するため、リアルタイムストリーミング状況では有効ではない。
我々は,今後最も効果的となる攻撃を予測することにより,リアルタイム性能を実現する予測攻撃を提案する。
リアルタイム制約下では,確立された音声認識システムdeepspeech 4.17xを,単語誤り率で測定したベースラインと,文字誤り率で測定した7.27倍をジャムする。
さらに,本手法は物理的距離を超える現実的な環境において有効であることを示す。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Time-Aware Face Anti-Spoofing with Rotation Invariant Local Binary Patterns and Deep Learning [50.79277723970418]
模倣攻撃は 不正な識別と その後の攻撃者の認証につながる
顔認識と同様に、模倣攻撃も機械学習で検出できる。
本稿では,未使用の機能と時間認識の深層学習戦略を組み合わせることで,高い分類精度を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-27T07:26:10Z) - Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer [8.948537516293328]
本稿では,ユーザ認識スタイルの転送に基づく自動音声認識(ASR)システムに対する攻撃を提案する。
提案手法は,ユーザカスタマイズスタイルの必要性を満たすとともに,攻撃の82%の成功率を達成することができる。
論文 参考訳(メタデータ) (2024-05-15T16:05:24Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Adversarial Representation Learning for Robust Privacy Preservation in
Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。
本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。
提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文 参考訳(メタデータ) (2023-04-29T08:39:55Z) - Attack on practical speaker verification system using universal
adversarial perturbations [20.38185341318529]
本研究は,提案する対人摂動を,相手が話しているときに別個の音源として演奏することにより,現実的な話者検証システムにより,相手を対象話者と誤認することを示す。
2段階のアルゴリズムが提案され、テキストに依存しない普遍的対向摂動を最適化し、認証テキスト認識にはほとんど影響を与えない。
論文 参考訳(メタデータ) (2021-05-19T09:43:34Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - VenoMave: Targeted Poisoning Against Speech Recognition [30.448709704880518]
VENOMAVEは、音声認識に対する最初の訓練時間中毒攻撃である。
我々はTIDIGITSと音声コマンドの2つのデータセットに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-10-21T00:30:08Z) - Towards Resistant Audio Adversarial Examples [0.0]
生成プロセスの欠陥により、最先端の逆例生成手法が過度な適合を引き起こすことが判明した。
我々は,この欠陥を緩和するアプローチを考案し,異なるオフセットを持つ逆例の生成を改善する方法を見出した。
論文 参考訳(メタデータ) (2020-10-14T16:04:02Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。