論文の概要: Improving endpoint detection in end-to-end streaming ASR for conversational speech
- arxiv url: http://arxiv.org/abs/2505.17070v1
- Date: Mon, 19 May 2025 15:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.523579
- Title: Improving endpoint detection in end-to-end streaming ASR for conversational speech
- Title(参考訳): 対話音声におけるエンドツーエンドストリーミングASRにおける終端検出の改善
- Authors: Anandh C, Karthik Pandia Durai, Jeena Prakash, Manickavela Arumugam, Kadri Hacioglu, S. Pavankumar Dubagunta, Andreas Stolcke, Shankar Venkatesan, Aravind Ganapathiraju,
- Abstract要約: ASR出力の遅れはエンドポイント(EP)のエラーや遅延につながる可能性がある
不正確なEPが会話中にユーザを遮断し、不完全な書き起こしを返す一方で、EPの遅延によって認識されるレイテンシが増加し、ユーザエクスペリエンスが低下する。
本稿では,EPの誤りに対処してEPを改善する手法を提案する。
- 参考スコア(独自算出の注目度): 11.591804331481285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASR endpointing (EP) plays a major role in delivering a good user experience in products supporting human or artificial agents in human-human/machine conversations. Transducer-based ASR (T-ASR) is an end-to-end (E2E) ASR modelling technique preferred for streaming. A major limitation of T-ASR is delayed emission of ASR outputs, which could lead to errors or delays in EP. Inaccurate EP will cut the user off while speaking, returning incomplete transcript while delays in EP will increase the perceived latency, degrading the user experience. We propose methods to improve EP by addressing delayed emission along with EP mistakes. To address the delayed emission problem, we introduce an end-of-word token at the end of each word, along with a delay penalty. The EP delay is addressed by obtaining a reliable frame-level speech activity detection using an auxiliary network. We apply the proposed methods on Switchboard conversational speech corpus and evaluate it against a delay penalty method.
- Abstract(参考訳): ASRエンドポイント(EP)は、人間と機械の会話において、人または人工エージェントをサポートする製品において、優れたユーザエクスペリエンスを提供する上で大きな役割を果たす。
Transducer-based ASR (T-ASR) は、ストリーミングに適したエンドツーエンド(E2E)のASRモデリング技術である。
T-ASRの最大の制限は、ASR出力の遅れであり、EPのエラーや遅延につながる可能性がある。
不正確なEPが会話中にユーザを遮断し、不完全な書き起こしを返す一方で、EPの遅延によって認識されるレイテンシが増加し、ユーザエクスペリエンスが低下する。
本稿では,EPの誤りに対処してEPを改善する手法を提案する。
遅延放出問題に対処するため,各単語の最後に単語の終端トークンを導入するとともに,遅延ペナルティを導入する。
EP遅延は、補助ネットワークを用いた信頼性の高いフレームレベルの音声活動検出によって対処される。
提案手法をSwitchboard会話音声コーパスに適用し,遅延ペナルティ法に対して評価する。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。
様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-05T09:45:26Z) - Personalized Predictive ASR for Latency Reduction in Voice Assistants [29.237198363254752]
本稿では,部分的に観測された発話から全発話を予測し,予測された発話に基づいて応答をプリフェッチする予測自動音声認識を提案する。
内部音声アシスタントデータセットと公共SLURPデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-23T08:05:43Z) - BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR [54.23941663326509]
話者の頻繁な変化は、話者の変化を予測するのを難しくする。
境界対応型直列出力訓練(BA-SOT)を提案する。
オリジナルのSOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減している。
論文 参考訳(メタデータ) (2023-05-23T06:08:13Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。