論文の概要: ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic
Speech Recognition of Contact Centers
- arxiv url: http://arxiv.org/abs/2004.09367v2
- Date: Sun, 17 May 2020 06:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:25:39.583486
- Title: ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic
Speech Recognition of Contact Centers
- Title(参考訳): ClovaCall:コンタクトセンターの自動音声認識のための韓国ゴール指向対話音声コーパス
- Authors: Jung-Woo Ha, Kihyun Nam, Jingu Kang, Sang-Woo Lee, Sohee Yang,
Hyunhoon Jung, Eunmi Kim, Hyeji Kim, Soojin Kim, Hyun Ah Kim, Kyoungtae Doh,
Chan Kyu Lee, Nako Sung, Sunghun Kim
- Abstract要約: 我々は,11,000人以上の目標志向の対話シナリオの下で,韓国の大規模音声コーパスを導入する。
ClovaCallは、レストラン予約ドメインで約6万対の短い文とそれに対応する発声を含む。
2つの標準ASRモデルを用いて、集中的な実験によりデータセットの有効性を検証した。
- 参考スコア(独自算出の注目度): 23.076908473357577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) via call is essential for various
applications, including AI for contact center (AICC) services. Despite the
advancement of ASR, however, most publicly available call-based speech corpora
such as Switchboard are old-fashioned. Also, most existing call corpora are in
English and mainly focus on open domain dialog or general scenarios such as
audiobooks. Here we introduce a new large-scale Korean call-based speech corpus
under a goal-oriented dialog scenario from more than 11,000 people, i.e.,
ClovaCall corpus. ClovaCall includes approximately 60,000 pairs of a short
sentence and its corresponding spoken utterance in a restaurant reservation
domain. We validate the effectiveness of our dataset with intensive experiments
using two standard ASR models. Furthermore, we release our ClovaCall dataset
and baseline source codes to be available via
https://github.com/ClovaAI/ClovaCall.
- Abstract(参考訳): AI for Contact Center(AICC)サービスなど、さまざまなアプリケーションにおいて、コールによる自動音声認識(ASR)が不可欠である。
しかし、ASRの進歩にもかかわらず、Switchboardのような一般的な通話ベースの音声コーパスは時代遅れである。
また、既存のコールコーパスのほとんどは英語であり、主にオープンドメインダイアログやオーディオブックのような一般的なシナリオに焦点を当てている。
本稿では,ClovaCallコーパス(ClovaCallコーパス)という,11,000人以上の目標志向の対話シナリオの下で,韓国の新しい大規模音声コーパスを紹介する。
ClovaCallは、レストラン予約ドメインで約6万対の短い文とそれに対応する発声を含む。
2つの標準asrモデルを用いて集中実験を行い,データセットの有効性を検証する。
さらに、clovacallデータセットとベースラインソースコードもリリースし、https://github.com/clovaai/clovacallから利用できます。
関連論文リスト
- FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Code-Switched Urdu ASR for Noisy Telephonic Environment using Data
Centric Approach with Hybrid HMM and CNN-TDNN [0.0]
ウルドゥー語は世界で10番目に広く話されている言語であり、世界中で231,295,440が今もASRの資源制約言語として残っている。
本稿では,雑音の多いコールセンタ環境下で,リソース効率の良い音声認識/音声音声テキストシステムの実装フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-07-24T13:04:21Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-09-07T13:25:36Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。