論文の概要: ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic
Speech Recognition of Contact Centers
- arxiv url: http://arxiv.org/abs/2004.09367v2
- Date: Sun, 17 May 2020 06:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:25:39.583486
- Title: ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic
Speech Recognition of Contact Centers
- Title(参考訳): ClovaCall:コンタクトセンターの自動音声認識のための韓国ゴール指向対話音声コーパス
- Authors: Jung-Woo Ha, Kihyun Nam, Jingu Kang, Sang-Woo Lee, Sohee Yang,
Hyunhoon Jung, Eunmi Kim, Hyeji Kim, Soojin Kim, Hyun Ah Kim, Kyoungtae Doh,
Chan Kyu Lee, Nako Sung, Sunghun Kim
- Abstract要約: 我々は,11,000人以上の目標志向の対話シナリオの下で,韓国の大規模音声コーパスを導入する。
ClovaCallは、レストラン予約ドメインで約6万対の短い文とそれに対応する発声を含む。
2つの標準ASRモデルを用いて、集中的な実験によりデータセットの有効性を検証した。
- 参考スコア(独自算出の注目度): 23.076908473357577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) via call is essential for various
applications, including AI for contact center (AICC) services. Despite the
advancement of ASR, however, most publicly available call-based speech corpora
such as Switchboard are old-fashioned. Also, most existing call corpora are in
English and mainly focus on open domain dialog or general scenarios such as
audiobooks. Here we introduce a new large-scale Korean call-based speech corpus
under a goal-oriented dialog scenario from more than 11,000 people, i.e.,
ClovaCall corpus. ClovaCall includes approximately 60,000 pairs of a short
sentence and its corresponding spoken utterance in a restaurant reservation
domain. We validate the effectiveness of our dataset with intensive experiments
using two standard ASR models. Furthermore, we release our ClovaCall dataset
and baseline source codes to be available via
https://github.com/ClovaAI/ClovaCall.
- Abstract(参考訳): AI for Contact Center(AICC)サービスなど、さまざまなアプリケーションにおいて、コールによる自動音声認識(ASR)が不可欠である。
しかし、ASRの進歩にもかかわらず、Switchboardのような一般的な通話ベースの音声コーパスは時代遅れである。
また、既存のコールコーパスのほとんどは英語であり、主にオープンドメインダイアログやオーディオブックのような一般的なシナリオに焦点を当てている。
本稿では,ClovaCallコーパス(ClovaCallコーパス)という,11,000人以上の目標志向の対話シナリオの下で,韓国の新しい大規模音声コーパスを紹介する。
ClovaCallは、レストラン予約ドメインで約6万対の短い文とそれに対応する発声を含む。
2つの標準asrモデルを用いて集中実験を行い,データセットの有効性を検証する。
さらに、clovacallデータセットとベースラインソースコードもリリースし、https://github.com/clovaai/clovacallから利用できます。
関連論文リスト
- OpenVoice: Versatile Instant Voice Cloning [24.270756803768194]
本稿では,多目的音声クローニング手法であるOpenVoiceを紹介する。
音声を再現し、複数の言語で音声を生成するために、参照話者からの短い音声クリップしか必要としない。
論文 参考訳(メタデータ) (2023-12-03T18:41:54Z) - Code-Switched Urdu ASR for Noisy Telephonic Environment using Data
Centric Approach with Hybrid HMM and CNN-TDNN [0.0]
ウルドゥー語は世界で10番目に広く話されている言語であり、世界中で231,295,440が今もASRの資源制約言語として残っている。
本稿では,雑音の多いコールセンタ環境下で,リソース効率の良い音声認識/音声音声テキストシステムの実装フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-07-24T13:04:21Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - CommonAccent: Exploring Large Acoustic Pretrained Models for Accent
Classification Based on Common Voice [1.559929646151698]
我々は、共通音声7.0(英語)と共通音声11.0(イタリア語、ドイツ語、スペイン語)に基づくアクセント分類のためのSpeechBrainツールキットに合わせたレシピを導入する。
我々は、95%の精度で英語アクセント分類のための新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-29T17:53:35Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-09-07T13:25:36Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。