論文の概要: SoK: The Faults in our ASRs: An Overview of Attacks against Automatic
Speech Recognition and Speaker Identification Systems
- arxiv url: http://arxiv.org/abs/2007.06622v3
- Date: Tue, 21 Jul 2020 17:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:51:08.132452
- Title: SoK: The Faults in our ASRs: An Overview of Attacks against Automatic
Speech Recognition and Speaker Identification Systems
- Title(参考訳): SoK:ASRの欠陥:自動音声認識と話者識別システムに対する攻撃の概要
- Authors: Hadi Abdullah, Kevin Warren, Vincent Bindschaedler, Nicolas Papernot,
and Patrick Traynor
- Abstract要約: 音声と話者システムのエンドツーエンドアーキテクチャは、画像空間のそれとはかなり異なる攻撃と防御を行うことを示す。
そして、これらのモデルに対する攻撃はほとんど普遍的に転送できないことを実験的に実証した。
- 参考スコア(独自算出の注目度): 28.635467696564703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech and speaker recognition systems are employed in a variety of
applications, from personal assistants to telephony surveillance and biometric
authentication. The wide deployment of these systems has been made possible by
the improved accuracy in neural networks. Like other systems based on neural
networks, recent research has demonstrated that speech and speaker recognition
systems are vulnerable to attacks using manipulated inputs. However, as we
demonstrate in this paper, the end-to-end architecture of speech and speaker
systems and the nature of their inputs make attacks and defenses against them
substantially different than those in the image space. We demonstrate this
first by systematizing existing research in this space and providing a taxonomy
through which the community can evaluate future work. We then demonstrate
experimentally that attacks against these models almost universally fail to
transfer. In so doing, we argue that substantial additional work is required to
provide adequate mitigations in this space.
- Abstract(参考訳): 音声認識システムや話者認識システムは、パーソナルアシスタントから電話監視や生体認証まで、様々な用途で利用されている。
これらのシステムの幅広い展開は、ニューラルネットワークの精度の向上によって可能になった。
ニューラルネットワークに基づく他のシステムと同様に、最近の研究は、音声と話者認識システムが操作された入力を用いた攻撃に対して脆弱であることを示した。
しかし,本稿で示すように,音声・話者システムのエンドツーエンドアーキテクチャとその入力の性質は,画像空間における攻撃や防御とは大きく異なる。
まず、この領域における既存の研究を体系化し、コミュニティが今後の作業を評価することができる分類学を提供することで、これを実証する。
次に,これらのモデルに対する攻撃がほぼ普遍的に伝達されないことを実験的に示す。
このようにして、この分野で適切な緩和を行うためには、かなりの追加作業が必要であると論じる。
関連論文リスト
- Vulnerabilities in Machine Learning-Based Voice Disorder Detection Systems [3.4745231630177136]
分類を逆転させ、信頼性を損なう攻撃の可能性を探る。
個人の健康情報の重要性を考えると、攻撃の種類が効果的であるかを理解することは、このようなシステムのセキュリティを改善するための第一歩となる。
以上の結果から,医療領域で使用される機械学習システムにおいて,これらの脆弱性に対処する必要性が指摘され,最も効果的な攻撃戦略が明らかになった。
論文 参考訳(メタデータ) (2024-10-21T10:14:44Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - When Authentication Is Not Enough: On the Security of Behavioral-Based Driver Authentication Systems [53.2306792009435]
我々はランダムフォレストとリカレントニューラルネットワークアーキテクチャに基づく2つの軽量ドライバ認証システムを開発した。
我々は,SMARTCANとGANCANという2つの新しいエスケープアタックを開発することで,これらのシステムに対する攻撃を最初に提案する。
コントリビューションを通じて、これらのシステムを安全に採用する実践者を支援し、車の盗難を軽減し、ドライバーのセキュリティを高める。
論文 参考訳(メタデータ) (2023-06-09T14:33:26Z) - Tubes Among Us: Analog Attack on Automatic Speaker Identification [37.42266692664095]
そこで本研究では,人間は費用と監督をほとんど必要とせず,直接的にアナログ対逆例を生成可能であることを示す。
実生活におけるセキュリティクリティカルな設定での使用に疑問が呈されるなど,他の音響バイオメトリックなタスクにも及んでいる。
論文 参考訳(メタデータ) (2022-02-06T10:33:13Z) - Bias in Automated Speaker Recognition [0.0]
自動話者認識における話者検証,音声バイオメトリック,コアタスクの機械学習開発ワークフローにおけるバイアスについて検討する。
我々は、よく知られたVoxCeleb Speaker Recognition Challengeにおいて、すべての発達段階にバイアスが存在することを示す。
影響を受けたのは女性話者と非米国国籍で、パフォーマンスが著しく低下している。
論文 参考訳(メタデータ) (2022-01-24T06:48:57Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Texture-based Presentation Attack Detection for Automatic Speaker
Verification [21.357976330739245]
本稿では,音声スペクトログラム画像の解析に応用したテクスチャ記述子の探索について報告する。
特に, 生成モデルに基づく一般的な漁獲量ベクトルの特徴空間を提案する。
せいぜい100頭中16頭が拒否され、100頭中1頭のみが受理される。
論文 参考訳(メタデータ) (2020-10-08T15:03:29Z) - Adversarial Attack and Defense Strategies for Deep Speaker Recognition
Systems [44.305353565981015]
本稿では, 深層話者認識システムに対する最先端の敵攻撃について考察し, 強力な防御手法を対策として用いた。
実験により、話者認識システムは敵攻撃に弱いことが示され、最も強い攻撃はシステムの精度を94%から0%に下げることができる。
論文 参考訳(メタデータ) (2020-08-18T00:58:19Z) - Integrated Replay Spoofing-aware Text-independent Speaker Verification [47.41124427552161]
本稿では,話者認証と提示攻撃検出の統合システムを構築するための2つのアプローチを提案する。
第1のアプローチは、話者識別、提示攻撃検出、マルチタスク学習を用いた統合システムとを同時に訓練する。
本稿では、話者検証と提示攻撃検出に分離されたディープニューラルネットワーク(DNN)を用いたバックエンドモジュール方式を提案する。
論文 参考訳(メタデータ) (2020-06-10T01:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。