論文の概要: Streaming Intended Query Detection using E2E Modeling for Continued
Conversation
- arxiv url: http://arxiv.org/abs/2208.13322v1
- Date: Mon, 29 Aug 2022 01:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:26:41.084849
- Title: Streaming Intended Query Detection using E2E Modeling for Continued
Conversation
- Title(参考訳): 連続会話のためのE2Eモデリングを用いたストリーム入出力クエリ検出
- Authors: Shuo-yiin Chang, Guru Prakash, Zelin Wu, Qiao Liang, Tara N. Sainath,
Bo Li, Adam Stambler, Shyam Upadhyay, Manaal Faruqui, Trevor Strohman
- Abstract要約: 音声対応アプリケーションでは、通常、所定のホットワードがクエリに参加するためにデバイスをアクティベートするために使用される。
本稿では、デバイスに向けられた発話を識別し、デバイスに向けられた他の発話をフィルタリングするストリーミングエンドツーエンドのクエリ検出手法を提案する。
- 参考スコア(独自算出の注目度): 36.158671423622955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In voice-enabled applications, a predetermined hotword isusually used to
activate a device in order to attend to the query.However, speaking queries
followed by a hotword each timeintroduces a cognitive burden in continued
conversations. Toavoid repeating a hotword, we propose a streaming
end-to-end(E2E) intended query detector that identifies the utterancesdirected
towards the device and filters out other utterancesnot directed towards device.
The proposed approach incor-porates the intended query detector into the E2E
model thatalready folds different components of the speech recognitionpipeline
into one neural network.The E2E modeling onspeech decoding and intended query
detection also allows us todeclare a quick intended query detection based on
early partialrecognition result, which is important to decrease latencyand make
the system responsive. We demonstrate that theproposed E2E approach yields a
22% relative improvement onequal error rate (EER) for the detection accuracy
and 600 mslatency improvement compared with an independent intendedquery
detector. In our experiment, the proposed model detectswhether the user is
talking to the device with a 8.7% EERwithin 1.4 seconds of median latency after
user starts speaking.
- Abstract(参考訳): 音声対応アプリケーションでは、通常、所定のホットワードを使用して、クエリに出席するためにデバイスを起動するが、そのたびにホットワードが続くと、継続する会話において認知的負担が生じる。
ホットワードを繰り返すことで、デバイスに向けられた発話を識別し、デバイスに向けられた他の発話をフィルタリングするストリーミングエンドツーエンド(E2E)型クエリー検出器を提案する。
提案手法は,音声認識パイプラインの異なるコンポーネントを1つのニューラルネットワークに折り畳むe2eモデルに対象のクエリ検出器を挿入する。e2eモデリングのオンスパイチ復号化と意図したクエリ検出は,早期部分認識結果に基づく高速に意図されたクエリ検出を可能にする。
提案したE2E法では,検出精度が22%向上し,600mslatencyの改善が得られた。
実験では,ユーザが8.7%のEERwithinでデバイスに話しかけているかどうかを,ユーザが話し始める1.4秒後に検出した。
関連論文リスト
- Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Turn-Taking Prediction for Natural Conversational Speech [40.189938418201656]
一般的な会話的発話は、ターンテイクを伴う複数のクエリを含むことが多い。
障害としては、思考の一時停止、ためらうこと、単語の延長、ポーズの充満、繰り返し句などがある。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
論文 参考訳(メタデータ) (2022-08-29T01:09:23Z) - Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文 参考訳(メタデータ) (2022-02-17T09:17:58Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。