論文の概要: Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems
- arxiv url: http://arxiv.org/abs/2409.19990v1
- Date: Mon, 30 Sep 2024 06:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:45.561097
- Title: Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems
- Title(参考訳): 音声対話システムに向けた予測音声認識と終末検出
- Authors: Oswald Zink, Yosuke Higuchi, Carlos Mullov, Alexander Waibel, Tetsunori Kobayashi,
- Abstract要約: 本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
- 参考スコア(独自算出の注目度): 55.99999020778169
- License:
- Abstract: Effective spoken dialog systems should facilitate natural interactions with quick and rhythmic timing, mirroring human communication patterns. To reduce response times, previous efforts have focused on minimizing the latency in automatic speech recognition (ASR) to optimize system efficiency. However, this approach requires waiting for ASR to complete processing until a speaker has finished speaking, which limits the time available for natural language processing (NLP) to formulate accurate responses. As humans, we continuously anticipate and prepare responses even while the other party is still speaking. This allows us to respond appropriately without missing the optimal time to speak. In this work, as a pioneering study toward a conversational system that simulates such human anticipatory behavior, we aim to realize a function that can predict the forthcoming words and estimate the time remaining until the end of an utterance (EOU), using the middle portion of an utterance. To achieve this, we propose a training strategy for an encoder-decoder-based ASR system, which involves masking future segments of an utterance and prompting the decoder to predict the words in the masked audio. Additionally, we develop a cross-attention-based algorithm that incorporates both acoustic and linguistic information to accurately detect the EOU. The experimental results demonstrate the proposed model's ability to predict upcoming words and estimate future EOU events up to 300ms prior to the actual EOU. Moreover, the proposed training strategy exhibits general improvements in ASR performance.
- Abstract(参考訳): 効果的な音声対話システムは、人間のコミュニケーションパターンを反映して、迅速でリズミカルなタイミングで自然な対話を促進する必要がある。
応答時間を短縮するため、従来の取り組みでは、自動音声認識(ASR)におけるレイテンシの最小化に重点を置いており、システムの効率を最適化している。
しかしこのアプローチでは、話者が話すまでASRが処理を完了するまで待つ必要があり、これは自然言語処理(NLP)で正確な応答を定式化できる時間を制限する。
人間として、私たちは、相手が話している間も、常に期待し、反応を準備します。
これにより、話すのに最適な時間を欠くことなく、適切に対応できます。
本研究では,人間の予測行動をシミュレートする対話システムに向けた先駆的な研究として,発話の中間部を用いて,次の単語を予測し,発話(EOU)の終了まで残される時間を推定する機能を実現することを目的とする。
そこで本研究では,音声の将来のセグメントをマスキングし,デコーダにマスキングされた音声の単語を予測させるエンコーダ・デコーダ・ベースのASRシステムのトレーニング戦略を提案する。
さらに,音響情報と言語情報を組み合わせてEOUを正確に検出するクロスアテンションに基づくアルゴリズムを開発した。
実験結果は,提案モデルが今後の単語を予測し,将来のEOUイベントを実際のEOUに先立って最大300msまで推定する能力を示した。
さらに、提案したトレーニング戦略は、ASR性能の全般的な改善を示す。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Personalized Predictive ASR for Latency Reduction in Voice Assistants [29.237198363254752]
本稿では,部分的に観測された発話から全発話を予測し,予測された発話に基づいて応答をプリフェッチする予測自動音声認識を提案する。
内部音声アシスタントデータセットと公共SLURPデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-23T08:05:43Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Turn-Taking Prediction for Natural Conversational Speech [40.189938418201656]
一般的な会話的発話は、ターンテイクを伴う複数のクエリを含むことが多い。
障害としては、思考の一時停止、ためらうこと、単語の延長、ポーズの充満、繰り返し句などがある。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
論文 参考訳(メタデータ) (2022-08-29T01:09:23Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Temporarily-Aware Context Modelling using Generative Adversarial
Networks for Speech Activity Detection [43.662221486962274]
音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。
我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。
NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-04-02T02:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。