論文の概要: Turn-Taking Prediction for Natural Conversational Speech
- arxiv url: http://arxiv.org/abs/2208.13321v1
- Date: Mon, 29 Aug 2022 01:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:26:59.975600
- Title: Turn-Taking Prediction for Natural Conversational Speech
- Title(参考訳): 自然会話音声のターンテイク予測
- Authors: Shuo-yiin Chang, Bo Li, Tara N. Sainath, Chao Zhang, Trevor Strohman,
Qiao Liang, Yanzhang He
- Abstract要約: 一般的な会話的発話は、ターンテイクを伴う複数のクエリを含むことが多い。
障害としては、思考の一時停止、ためらうこと、単語の延長、ポーズの充満、繰り返し句などがある。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
- 参考スコア(独自算出の注目度): 40.189938418201656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While a streaming voice assistant system has been used in many applications,
this system typically focuses on unnatural, one-shot interactions assuming
input from a single voice query without hesitation or disfluency. However, a
common conversational utterance often involves multiple queries with
turn-taking, in addition to disfluencies. These disfluencies include pausing to
think, hesitations, word lengthening, filled pauses and repeated phrases. This
makes doing speech recognition with conversational speech, including one with
multiple queries, a challenging task. To better model the conversational
interaction, it is critical to discriminate disfluencies and end of query in
order to allow the user to hold the floor for disfluencies while having the
system respond as quickly as possible when the user has finished speaking. In
this paper, we present a turntaking predictor built on top of the end-to-end
(E2E) speech recognizer. Our best system is obtained by jointly optimizing for
ASR task and detecting when the user is paused to think or finished speaking.
The proposed approach demonstrates over 97% recall rate and 85% precision rate
on predicting true turn-taking with only 100 ms latency on a test set designed
with 4 types of disfluencies inserted in conversational utterances.
- Abstract(参考訳): ストリーミング音声アシスタントシステムは、多くのアプリケーションで使われているが、一般的にこのシステムは、単一の音声クエリからの入力をためらうことなく、不自然なワンショットインタラクションに焦点を当てている。
しかし、一般的な会話の発話は、しばしば、不正に加えて、ターンテイクを伴う複数のクエリを伴う。
これらの相違には、思考、ためらい、単語の延長、一時停止、繰り返し句などが含まれる。
これにより、複数のクエリを含む会話型音声による音声認識は難しい課題となる。
対話的なインタラクションをより良くモデル化するには,ユーザが会話を終えた時点で,できるだけ早く応答させながら,不便を床に保持できるようにするために,問合せのずれと終了を判別することが不可欠である。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
最善のシステムは,asrタスクを共同で最適化し,ユーザの思考停止や発話終了を検知することで得られる。
提案手法は,会話発話に4種類の不一致を挿入したテストセットにおいて,100ミリ秒のレイテンシで真のターンテイクを予測する場合,97%以上のリコール率と85%の精度を示す。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Multimodal Contextual Dialogue Breakdown Detection for Conversational AI Models [1.4199474167684119]
マルチモーダルな文脈対話ブレークダウン(MultConDB)モデルを導入する。
このモデルは、69.27のF1を達成することで、他の既知の最高のモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-04-11T23:09:18Z) - The timing bottleneck: Why timing and overlap are mission-critical for
conversational user interfaces, speech recognition and dialogue systems [0.11470070927586018]
対話型および多言語対応のための5つの主要な商用ASRシステムの評価を行った。
6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である。
本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。
論文 参考訳(メタデータ) (2023-07-28T11:38:05Z) - Question-Interlocutor Scope Realized Graph Modeling over Key Utterances
for Dialogue Reading Comprehension [61.55950233402972]
本稿では,対話読解のためのキーワード抽出手法を提案する。
複数の連続した発話によって形成された単位に対して予測を行い、より多くの回答を含む発話を実現する。
発話のテキスト上に構築されたグラフとして,質問-対話者スコープ実現グラフ(QuISG)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:00:42Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Hierarchical Summarization for Longform Spoken Dialog [1.995792341399967]
音声対話の広汎性にもかかわらず、自動音声理解と品質情報抽出は依然として著しく貧弱である。
テキストを理解することに比べ、聴覚コミュニケーションは、話者の拡散、非公式な散文スタイル、構造の欠如など、多くの追加的な課題を生んでいる。
本稿では、2段階のASRとテキスト要約パイプラインを提案し、これらの音声認識課題を解決するためのセマンティックセグメンテーションとマージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-21T23:31:31Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。