Fugu-MT 論文翻訳(概要): The timing bottleneck: Why timing and overlap are mission-critical for conversational user interfaces, speech recognition and dialogue systems

論文の概要: The timing bottleneck: Why timing and overlap are mission-critical for conversational user interfaces, speech recognition and dialogue systems

arxiv url: http://arxiv.org/abs/2307.15493v1
Date: Fri, 28 Jul 2023 11:38:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 12:44:19.356607
Title: The timing bottleneck: Why timing and overlap are mission-critical for conversational user interfaces, speech recognition and dialogue systems
Title（参考訳）: タイミングボトルネック:対話型ユーザインタフェース、音声認識、対話システムにおいてタイミングと重複がミッションクリティカルな理由
Authors: Andreas Liesenfeld, Alianda Lopez, Mark Dingemanse
Abstract要約: 対話型および多言語対応のための5つの主要な商用ASRシステムの評価を行った。 6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である。本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。
参考スコア（独自算出の注目度）: 0.11470070927586018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech recognition systems are a key intermediary in voice-driven human-computer interaction. Although speech recognition works well for pristine monologic audio, real-life use cases in open-ended interactive settings still present many challenges. We argue that timing is mission-critical for dialogue systems, and evaluate 5 major commercial ASR systems for their conversational and multilingual support. We find that word error rates for natural conversational data in 6 languages remain abysmal, and that overlap remains a key challenge (study 1). This impacts especially the recognition of conversational words (study 2), and in turn has dire consequences for downstream intent recognition (study 3). Our findings help to evaluate the current state of conversational ASR, contribute towards multidimensional error analysis and evaluation, and identify phenomena that need most attention on the way to build robust interactive speech technologies.
Abstract（参考訳）: 音声認識システムは、音声駆動型人間とコンピュータの相互作用において重要な中間体である。音声認識は単調なモノロジーオーディオには有効だが、オープンエンドの対話環境における実生活のユースケースには多くの課題がある。我々は、対話システムにとってタイミングはミッションクリティカルであり、対話型および多言語対応のための主要なASRシステム5つを評価する。 6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である(研究1)。これは特に会話言葉の認識に影響を及ぼし(研究2)、ダウンストリーム意図認識に恐ろしい結果をもたらす(研究3)。本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。

関連論文リスト

The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era [95.35748535806744]
我々はICASSP 2026で最初のヒューマンライクな音声対話システムチャレンジ(HumDial)を開催する。本稿では,データセット,トラック構成,最終結果について概説する。
論文参考訳（メタデータ） (2026-01-09T06:32:30Z)
Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models [31.584937435966253]
音声対話能力を評価するためにVocalBenchを提案する。 4つのキーディメンションにわたる9,400の慎重にキュレートされたインスタンスで構成されている。効果的な音声対話に不可欠な、幅広い基本的なスキルをカバーしている。
論文参考訳（メタデータ） (2025-05-21T16:34:07Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。 EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T20:29:01Z)
Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders [10.664605070306417]
音声障害者を対象としたゼロショット学習によるジェスチャー認識自動音声認識(ASR)システムを提案する。実験結果と分析結果から,ジェスチャー情報を含むと意味理解が著しく向上することが示された。
論文参考訳（メタデータ） (2025-02-18T14:15:55Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
Are cascade dialogue state tracking models speaking out of turn in spoken dialogues? [1.786898113631979]
本稿では,対話状態追跡のような複雑な環境下でのアートシステムのエラーを包括的に解析する。音声MultiWozに基づいて、音声対話システムとチャットベースの対話システムとのギャップを埋めるためには、非カテゴリースロットの値の誤差に対処することが不可欠である。
論文参考訳（メタデータ） (2023-11-03T08:45:22Z)
Adapting Text-based Dialogue State Tracker for Spoken Dialogues [20.139351605832665]
本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
論文参考訳（メタデータ） (2023-08-29T06:27:58Z)
Evaluation of Automated Speech Recognition Systems for Conversational Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文参考訳（メタデータ） (2022-11-05T04:35:40Z)
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文参考訳（メタデータ） (2022-04-29T17:56:59Z)
"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文参考訳（メタデータ） (2021-09-28T04:51:04Z)
Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文参考訳（メタデータ） (2020-09-26T08:43:06Z)
TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文参考訳（メタデータ） (2020-04-15T04:09:05Z)
Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文参考訳（メタデータ） (2020-03-17T01:34:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。