論文の概要: FakeWake: Understanding and Mitigating Fake Wake-up Words of Voice
Assistants
- arxiv url: http://arxiv.org/abs/2109.09958v1
- Date: Tue, 21 Sep 2021 04:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:10:12.138561
- Title: FakeWake: Understanding and Mitigating Fake Wake-up Words of Voice
Assistants
- Title(参考訳): FakeWake: 音声アシスタントのフェイクウェイクアップ単語の理解と緩和
- Authors: Yanjiao Chen, Yijie Bai, Richard Mitev, Kaibo Wang, Ahmad-Reza Sadeghi
and Wenyuan Xu
- Abstract要約: 本稿では,3つの側面から,フェイクウェイク現象の系統的研究を行う。
音声資料群を検索する代わりに,ファジィ単語を自動かつ効率的に生成するファジィ単語生成装置を設計する。
そこで我々は,単語検出器によるファジィ単語の誤認識に寄与する音声特徴を明らかにする,解釈可能な木に基づく決定モデルを構築した。
- 参考スコア(独自算出の注目度): 34.569153609509755
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the area of Internet of Things (IoT) voice assistants have become an
important interface to operate smart speakers, smartphones, and even
automobiles. To save power and protect user privacy, voice assistants send
commands to the cloud only if a small set of pre-registered wake-up words are
detected. However, voice assistants are shown to be vulnerable to the FakeWake
phenomena, whereby they are inadvertently triggered by innocent-sounding fuzzy
words. In this paper, we present a systematic investigation of the FakeWake
phenomena from three aspects. To start with, we design the first fuzzy word
generator to automatically and efficiently produce fuzzy words instead of
searching through a swarm of audio materials. We manage to generate 965 fuzzy
words covering 8 most popular English and Chinese smart speakers. To explain
the causes underlying the FakeWake phenomena, we construct an interpretable
tree-based decision model, which reveals phonetic features that contribute to
false acceptance of fuzzy words by wake-up word detectors. Finally, we propose
remedies to mitigate the effect of FakeWake. The results show that the
strengthened models are not only resilient to fuzzy words but also achieve
better overall performance on original training datasets.
- Abstract(参考訳): IoT(Internet of Things)分野では、スマートスピーカーやスマートフォン、さらには自動車を操作するための重要なインターフェースになっています。
パワーを節約し、ユーザーのプライバシーを保護するために、音声アシスタントは、事前登録された起動ワードが検出された場合にのみ、コマンドをクラウドに送信する。
しかし、音声アシスタントはフェイクウェイク現象に弱いことが示されており、不吉なファジィワードによって不注意に引き起こされる。
本稿では,3つの側面から,フェイクウェイク現象の系統的研究を行う。
まず,音声資料群を検索する代わりに,ファジィ単語を自動かつ効率的に生成するファジィ単語生成装置を設計する。
英語と中国語の8つのスマートスピーカーをカバーする965のファジィワードを生成しました。
ファジィ語の誤認識に寄与する音声的特徴を明らかにするため,ファジィウェーク現象の背後にある原因を説明するために,木ベースの決定モデルを構築した。
最後に,FakeWakeの効果を軽減するための対策を提案する。
その結果、強化されたモデルはファジィな単語に対して弾力性を持つだけでなく、元のトレーニングデータセットでの全体的なパフォーマンスも向上した。
関連論文リスト
- To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文 参考訳(メタデータ) (2023-04-06T23:49:29Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Training Wake Word Detection with Synthesized Speech Data on Confusion
Words [10.97664190706851]
エンドツーエンドKWSシステムのトレーニングのための2つのデータ拡張設定について検討する。
1つは、マルチスピーカ音声合成システムから合成されたデータである。
その他の拡張は、音響特徴にランダムノイズを付加して行う。
論文 参考訳(メタデータ) (2020-11-03T04:06:04Z) - Improving Device Directedness Classification of Utterances with Semantic
Lexical Features [9.43023411463796]
意味論的特徴と軽量音響特徴を組み合わせた指向性分類器を提案する。
混合ドメイン語彙および音響特徴モデルにより、最先端の音響のみのベースラインモデルよりもEERを14%削減することができる。
論文 参考訳(メタデータ) (2020-09-29T20:13:58Z) - Accurate Detection of Wake Word Start and End Using a CNN [7.127506795239017]
小さなフットプリント組み込みデバイスは、音声アシスタントを実現するために、小さなモデルサイズと検出遅延を持つキーワードスポッター(KWS)を必要とする。
単一段階の単語レベルニューラルネットワークを用いたニューラルKWSにおけるウェイクワードの終端を検出する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2020-08-09T19:02:41Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。