論文の概要: The timing bottleneck: Why timing and overlap are mission-critical for
conversational user interfaces, speech recognition and dialogue systems
- arxiv url: http://arxiv.org/abs/2307.15493v1
- Date: Fri, 28 Jul 2023 11:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 12:44:19.356607
- Title: The timing bottleneck: Why timing and overlap are mission-critical for
conversational user interfaces, speech recognition and dialogue systems
- Title(参考訳): タイミングボトルネック:対話型ユーザインタフェース、音声認識、対話システムにおいてタイミングと重複がミッションクリティカルな理由
- Authors: Andreas Liesenfeld, Alianda Lopez, Mark Dingemanse
- Abstract要約: 対話型および多言語対応のための5つの主要な商用ASRシステムの評価を行った。
6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である。
本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。
- 参考スコア(独自算出の注目度): 0.11470070927586018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition systems are a key intermediary in voice-driven
human-computer interaction. Although speech recognition works well for pristine
monologic audio, real-life use cases in open-ended interactive settings still
present many challenges. We argue that timing is mission-critical for dialogue
systems, and evaluate 5 major commercial ASR systems for their conversational
and multilingual support. We find that word error rates for natural
conversational data in 6 languages remain abysmal, and that overlap remains a
key challenge (study 1). This impacts especially the recognition of
conversational words (study 2), and in turn has dire consequences for
downstream intent recognition (study 3). Our findings help to evaluate the
current state of conversational ASR, contribute towards multidimensional error
analysis and evaluation, and identify phenomena that need most attention on the
way to build robust interactive speech technologies.
- Abstract(参考訳): 音声認識システムは、音声駆動型人間とコンピュータの相互作用において重要な中間体である。
音声認識は単調なモノロジーオーディオには有効だが、オープンエンドの対話環境における実生活のユースケースには多くの課題がある。
我々は、対話システムにとってタイミングはミッションクリティカルであり、対話型および多言語対応のための主要なASRシステム5つを評価する。
6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である(研究1)。
これは特に会話言葉の認識に影響を及ぼし(研究2)、ダウンストリーム意図認識に恐ろしい結果をもたらす(研究3)。
本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders [10.664605070306417]
音声障害者を対象としたゼロショット学習によるジェスチャー認識自動音声認識(ASR)システムを提案する。
実験結果と分析結果から,ジェスチャー情報を含むと意味理解が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T14:15:55Z) - Incremental Dialogue Management: Survey, Discussion, and Implications for HRI [16.34485107181007]
本稿では,段階的に機能するインタラクティブシステム(単語レベル以下)に関する文献をレビューする。
音声認識や言語生成といった対話の重要な側面について,インクリメンタルなシステムの必要性,インクリメンタルなモデリングを調査する。
インクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインディ
論文 参考訳(メタデータ) (2025-01-01T20:58:03Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Adapting Text-based Dialogue State Tracker for Spoken Dialogues [20.139351605832665]
本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。
本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
論文 参考訳(メタデータ) (2023-08-29T06:27:58Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。