論文の概要: ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2503.08533v1
- Date: Tue, 11 Mar 2025 15:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:43.635916
- Title: ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems
- Title(参考訳): ESPnet-SDS:音声対話システムのための統一ツールキットとデモ
- Authors: Siddhant Arora, Yifan Peng, Jiatong Shi, Jinchuan Tian, William Chen, Shikhar Bharadwaj, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Shuichiro Shimizu, Vaibhav Srivastav, Shinji Watanabe,
- Abstract要約: 本稿では,各種ケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するための,オープンソースのユーザフレンドリなツールキットを提案する。
評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。
我々の分析は、このツールキットが研究者に、異なる技術の比較と対比を行なわせることを実証している。
- 参考スコア(独自算出の注目度): 57.806797579986075
- License:
- Abstract: Advancements in audio foundation models (FMs) have fueled interest in end-to-end (E2E) spoken dialogue systems, but different web interfaces for each system makes it challenging to compare and contrast them effectively. Motivated by this, we introduce an open-source, user-friendly toolkit designed to build unified web interfaces for various cascaded and E2E spoken dialogue systems. Our demo further provides users with the option to get on-the-fly automated evaluation metrics such as (1) latency, (2) ability to understand user input, (3) coherence, diversity, and relevance of system response, and (4) intelligibility and audio quality of system output. Using the evaluation metrics, we compare various cascaded and E2E spoken dialogue systems with a human-human conversation dataset as a proxy. Our analysis demonstrates that the toolkit allows researchers to effortlessly compare and contrast different technologies, providing valuable insights such as current E2E systems having poorer audio quality and less diverse responses. An example demo produced using our toolkit is publicly available here: https://huggingface.co/spaces/Siddhant/Voice_Assistant_Demo.
- Abstract(参考訳): 音声基礎モデル(FM)の進歩は、エンド・ツー・エンド(E2E)音声対話システムへの関心を喚起している。
そこで我々は,様々なケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するために設計された,オープンソースのユーザフレンドリなツールキットを紹介した。
デモではさらに,(1)レイテンシ,(2)ユーザ入力の理解能力,(3)一貫性,多様性,システム応答の関連性,(4)システム出力のインテリジェンスとオーディオ品質など,オンザフライでの自動評価指標を取得するオプションも提供する。
評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。
分析の結果,従来のE2Eシステムは音質が劣り,応答の多様性が低かった。
私たちのツールキットを使用したデモは、以下で公開されています。
関連論文リスト
- OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios [45.78414948567598]
本稿では,多種多様なシナリオの対話モデルを強化するために合成データを活用することを提案する。
ShareChatXは、多様なシナリオにまたがる音声対話のための、最初の包括的な大規模データセットである。
また、合成データを用いた対話システムの訓練における重要な側面についても検討する。
論文 参考訳(メタデータ) (2025-01-02T17:58:23Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue
System [120.70726465994781]
マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。
製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。
オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
論文 参考訳(メタデータ) (2022-05-30T12:41:23Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z) - An Adversarial Learning based Multi-Step Spoken Language Understanding
System through Human-Computer Interaction [70.25183730482915]
対戦型学習に基づく多段階音声言語理解システムを提案する。
我々は,F1の観点で解析性能を少なくとも2.5%向上させることを実証した。
論文 参考訳(メタデータ) (2021-06-06T03:46:53Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - EmpTransfo: A Multi-head Transformer Architecture for Creating
Empathetic Dialog Systems [4.41738804598711]
本稿では,共感対話システムを構築するためのマルチヘッドトランスフォーマーアーキテクチャであるEmpTransfoを提案する。
感情やメタデータの履歴を活用することで、生成した会話の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-05T23:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。