論文の概要: Personalized Predictive ASR for Latency Reduction in Voice Assistants
- arxiv url: http://arxiv.org/abs/2305.13794v1
- Date: Tue, 23 May 2023 08:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:06:28.306193
- Title: Personalized Predictive ASR for Latency Reduction in Voice Assistants
- Title(参考訳): 音声アシスタントにおける遅延低減のための個人化予測型ASR
- Authors: Andreas Schwarz, Di He, Maarten Van Segbroeck, Mohammed Hethnawi,
Ariya Rastrow
- Abstract要約: 本稿では,部分的に観測された発話から全発話を予測し,予測された発話に基づいて応答をプリフェッチする予測自動音声認識を提案する。
内部音声アシスタントデータセットと公共SLURPデータセットを用いて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 29.237198363254752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming Automatic Speech Recognition (ASR) in voice assistants can utilize
prefetching to partially hide the latency of response generation. Prefetching
involves passing a preliminary ASR hypothesis to downstream systems in order to
prefetch and cache a response. If the final ASR hypothesis after endpoint
detection matches the preliminary one, the cached response can be delivered to
the user, thus saving latency. In this paper, we extend this idea by
introducing predictive automatic speech recognition, where we predict the full
utterance from a partially observed utterance, and prefetch the response based
on the predicted utterance. We introduce two personalization approaches and
investigate the tradeoff between potential latency gains from successful
predictions and the cost increase from failed predictions. We evaluate our
methods on an internal voice assistant dataset as well as the public SLURP
dataset.
- Abstract(参考訳): 音声アシスタントにおけるストリーミング自動音声認識(ASR)は、プレフェッチを利用して応答生成のレイテンシを部分的に隠すことができる。
プリフェッチには、応答をプリフェッチしキャッシュするために、ダウンストリームシステムに予備asr仮説を渡すことが含まれる。
エンドポイント検出後の最終asr仮説が予備値と一致する場合、キャッシュされた応答をユーザに届けることができ、レイテンシを節約できる。
本稿では,このアイデアを,部分的に観察された発話から全発話を予測し,予測された発話に基づいて応答をプリフェッチする予測自動音声認識を導入して拡張する。
本稿では,2つのパーソナライズ手法を導入し,成功予測と失敗予測のコスト増加とのトレードオフを検討する。
提案手法は,slurpデータセットと同様に,内部音声アシスタントデータセット上で評価する。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Towards Reliable and Factual Response Generation: Detecting Unanswerable
Questions in Information-Seeking Conversations [16.99952884041096]
生成的AIモデルは、そのようなシステムに対するユーザの信頼を損なう可能性のある幻覚の課題に直面します。
本稿では,まずコーパス内の関連するパスを識別し,最後にシステム応答にまとめる2段階のプロセスとして,会話情報探索の問題にアプローチする。
具体的には,文レベル分類器を用いて解答の有無を判定し,これらの予測を文レベルに集約し,最後に最終解答可能性推定値に到達する。
論文 参考訳(メタデータ) (2024-01-21T10:15:36Z) - Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals
using Self Supervised Speech Representations [21.237026538221404]
SQ評価の非侵襲的予測手法は、難聴者に対するインテリジェンス予測に拡張される。
自己教師付き表現は,非侵入予測モデルの入力特徴として有用であることがわかった。
論文 参考訳(メタデータ) (2023-07-25T11:42:52Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Real-time Caller Intent Detection In Human-Human Customer Support Spoken
Conversations [10.312382727352823]
ヒューマン・ヒューマン・カスタマーサポート音声対話におけるエージェント支援には、発信者の意図に基づくトリガーが必要である(通話の理由)
目的は、エージェントがそれを検出できた時、システムが呼び出し者の意図を検出することである(Intent Boundary)。
音声アシスタントの最近の研究は、単語単位の段階的なリアルタイム予測を使用して、コマンドの終了前に意図を検出する。
論文 参考訳(メタデータ) (2022-08-14T07:50:23Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。