論文の概要: The timing bottleneck: Why timing and overlap are mission-critical for
conversational user interfaces, speech recognition and dialogue systems
- arxiv url: http://arxiv.org/abs/2307.15493v1
- Date: Fri, 28 Jul 2023 11:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 12:44:19.356607
- Title: The timing bottleneck: Why timing and overlap are mission-critical for
conversational user interfaces, speech recognition and dialogue systems
- Title(参考訳): タイミングボトルネック:対話型ユーザインタフェース、音声認識、対話システムにおいてタイミングと重複がミッションクリティカルな理由
- Authors: Andreas Liesenfeld, Alianda Lopez, Mark Dingemanse
- Abstract要約: 対話型および多言語対応のための5つの主要な商用ASRシステムの評価を行った。
6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である。
本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。
- 参考スコア(独自算出の注目度): 0.11470070927586018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition systems are a key intermediary in voice-driven
human-computer interaction. Although speech recognition works well for pristine
monologic audio, real-life use cases in open-ended interactive settings still
present many challenges. We argue that timing is mission-critical for dialogue
systems, and evaluate 5 major commercial ASR systems for their conversational
and multilingual support. We find that word error rates for natural
conversational data in 6 languages remain abysmal, and that overlap remains a
key challenge (study 1). This impacts especially the recognition of
conversational words (study 2), and in turn has dire consequences for
downstream intent recognition (study 3). Our findings help to evaluate the
current state of conversational ASR, contribute towards multidimensional error
analysis and evaluation, and identify phenomena that need most attention on the
way to build robust interactive speech technologies.
- Abstract(参考訳): 音声認識システムは、音声駆動型人間とコンピュータの相互作用において重要な中間体である。
音声認識は単調なモノロジーオーディオには有効だが、オープンエンドの対話環境における実生活のユースケースには多くの課題がある。
我々は、対話システムにとってタイミングはミッションクリティカルであり、対話型および多言語対応のための主要なASRシステム5つを評価する。
6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である(研究1)。
これは特に会話言葉の認識に影響を及ぼし(研究2)、ダウンストリーム意図認識に恐ろしい結果をもたらす(研究3)。
本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Are cascade dialogue state tracking models speaking out of turn in
spoken dialogues? [1.786898113631979]
本稿では,対話状態追跡のような複雑な環境下でのアートシステムのエラーを包括的に解析する。
音声MultiWozに基づいて、音声対話システムとチャットベースの対話システムとのギャップを埋めるためには、非カテゴリースロットの値の誤差に対処することが不可欠である。
論文 参考訳(メタデータ) (2023-11-03T08:45:22Z) - Adapting Text-based Dialogue State Tracker for Spoken Dialogues [20.139351605832665]
本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。
本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
論文 参考訳(メタデータ) (2023-08-29T06:27:58Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。
タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文 参考訳(メタデータ) (2020-03-17T01:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。