論文の概要: Streaming on-device detection of device directed speech from voice and
touch-based invocation
- arxiv url: http://arxiv.org/abs/2110.04656v1
- Date: Sat, 9 Oct 2021 22:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 20:56:19.227562
- Title: Streaming on-device detection of device directed speech from voice and
touch-based invocation
- Title(参考訳): 音声とタッチによる音声によるデバイス指向音声のオンデバイス検出
- Authors: Ognjen Rudovic, Akanksha Bindal, Vineet Garg, Pramod Simha, Pranay
Dighe and Sachin Kajarekar
- Abstract要約: デバイス上での音声検出のための音響的偽トリガー除去(FTM)手法を提案する。
デバイス上でのモデル展開を容易にするため,時間的畳み込みネットワーク(TCN)の概念を用いた新たなストリーミング決定層を導入する。
我々の知る限りでは、これはストリーミング方式で複数の呼び出しタイプからデバイス指向の音声を検出する最初のアプローチである。
- 参考スコア(独自算出の注目度): 12.42440115067583
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When interacting with smart devices such as mobile phones or wearables, the
user typically invokes a virtual assistant (VA) by saying a keyword or by
pressing a button on the device. However, in many cases, the VA can
accidentally be invoked by the keyword-like speech or accidental button press,
which may have implications on user experience and privacy. To this end, we
propose an acoustic false-trigger-mitigation (FTM) approach for on-device
device-directed speech detection that simultaneously handles the voice-trigger
and touch-based invocation. To facilitate the model deployment on-device, we
introduce a new streaming decision layer, derived using the notion of temporal
convolutional networks (TCN) [1], known for their computational efficiency. To
the best of our knowledge, this is the first approach that can detect
device-directed speech from more than one invocation type in a streaming
fashion. We compare this approach with streaming alternatives based on vanilla
Average layer, and canonical LSTMs, and show: (i) that all the models show only
a small degradation in accuracy compared with the invocation-specific models,
and (ii) that the newly introduced streaming TCN consistently performs better
or comparable with the alternatives, while mitigating device undirected speech
faster in time, and with (relative) reduction in runtime peak-memory over the
LSTM-based approach of 33% vs. 7%, when compared to a non-streaming
counterpart.
- Abstract(参考訳): 携帯電話やウェアラブルなどのスマートデバイスと対話する場合、ユーザーは通常、キーワードを言ったり、デバイスにボタンを押すことで仮想アシスタント(VA)を呼び出す。
しかし、多くの場合、vaはキーワードのような音声や偶然のボタンを押して誤って呼び出すことができ、それはユーザー体験やプライバシーに影響を及ぼす可能性がある。
そこで本研究では,音声トリガーとタッチベースの呼び出しを同時に処理するオンデバイスデバイス指向音声検出のための,音響的偽トリガー除去(FTM)アプローチを提案する。
デバイス上でのモデル展開を容易にするため,時間的畳み込みネットワーク(TCN)[1]の概念を応用した新しいストリーミング決定層を導入する。
我々の知る限りでは、これはストリーミング方式で複数の呼び出しタイプからデバイス指向の音声を検出する最初のアプローチである。
このアプローチを,バニラ平均層と標準LSTMに基づくストリーミング代替手段と比較し,以下の結果を示す。
(i)全てのモデルが呼び出し特化モデルと比較して精度の低下が少ないこと、及び
(i) 新たに導入されたストリーミングTCNは,非ストリーミングと比較して,非指向音声の時間短縮と,LSTMベースのアプローチによる実行時のピークメモリの33%対7%の(相対的な)削減を図りながら,従来と同等あるいは同等の動作を実現している。
関連論文リスト
- Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme
conversion [18.83348872103488]
Grapheme-to-phoneme (G2P) は文字を対応する発音に変換する役割を担っている。
既存のメソッドはパフォーマンスが遅いか悪いかのいずれかで、アプリケーションのシナリオに制限がある。
本稿では,高速で軽量で理論的に並列なLiteG2Pを提案する。
論文 参考訳(メタデータ) (2023-03-02T09:16:21Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。