Fugu-MT 論文翻訳(概要): ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact Centers

論文の概要: ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact Centers

arxiv url: http://arxiv.org/abs/2004.09367v2
Date: Sun, 17 May 2020 06:53:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-11 17:25:39.583486
Title: ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact Centers
Title（参考訳）: ClovaCall:コンタクトセンターの自動音声認識のための韓国ゴール指向対話音声コーパス
Authors: Jung-Woo Ha, Kihyun Nam, Jingu Kang, Sang-Woo Lee, Sohee Yang, Hyunhoon Jung, Eunmi Kim, Hyeji Kim, Soojin Kim, Hyun Ah Kim, Kyoungtae Doh, Chan Kyu Lee, Nako Sung, Sunghun Kim
Abstract要約: 我々は,11,000人以上の目標志向の対話シナリオの下で,韓国の大規模音声コーパスを導入する。 ClovaCallは、レストラン予約ドメインで約6万対の短い文とそれに対応する発声を含む。 2つの標準ASRモデルを用いて、集中的な実験によりデータセットの有効性を検証した。
参考スコア（独自算出の注目度）: 23.076908473357577
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic speech recognition (ASR) via call is essential for various applications, including AI for contact center (AICC) services. Despite the advancement of ASR, however, most publicly available call-based speech corpora such as Switchboard are old-fashioned. Also, most existing call corpora are in English and mainly focus on open domain dialog or general scenarios such as audiobooks. Here we introduce a new large-scale Korean call-based speech corpus under a goal-oriented dialog scenario from more than 11,000 people, i.e., ClovaCall corpus. ClovaCall includes approximately 60,000 pairs of a short sentence and its corresponding spoken utterance in a restaurant reservation domain. We validate the effectiveness of our dataset with intensive experiments using two standard ASR models. Furthermore, we release our ClovaCall dataset and baseline source codes to be available via https://github.com/ClovaAI/ClovaCall.
Abstract（参考訳）: AI for Contact Center(AICC)サービスなど、さまざまなアプリケーションにおいて、コールによる自動音声認識(ASR)が不可欠である。しかし、ASRの進歩にもかかわらず、Switchboardのような一般的な通話ベースの音声コーパスは時代遅れである。また、既存のコールコーパスのほとんどは英語であり、主にオープンドメインダイアログやオーディオブックのような一般的なシナリオに焦点を当てている。本稿では,ClovaCallコーパス(ClovaCallコーパス)という,11,000人以上の目標志向の対話シナリオの下で,韓国の新しい大規模音声コーパスを紹介する。 ClovaCallは、レストラン予約ドメインで約6万対の短い文とそれに対応する発声を含む。 2つの標準asrモデルを用いて集中実験を行い,データセットの有効性を検証する。さらに、clovacallデータセットとベースラインソースコードもリリースし、https://github.com/clovaai/clovacallから利用できます。

関連論文リスト

Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。 ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文参考訳（メタデータ） (2025-11-12T19:48:09Z)
POWSM: A Phonetic Open Whisper-Style Speech Foundation Model [50.73202227472358]
POWSMは、複数の電話関連のタスクを共同で実行できる最初の統合フレームワークである。私たちのトレーニングデータ、コード、モデルは、オープンサイエンスを育むためにリリースされています。
論文参考訳（メタデータ） (2025-10-28T21:43:45Z)
Hello Afrika: Speech Commands in Kinyarwanda [0.0]
アフリカの言語には音声コマンドモデルのデジェスがあります。 Hello Afrikaはこの問題に対処することを目的としており、最初のイテレーションはKinyarwanda言語に焦点を当てている。このモデルは、一般的な指示、数字、ウェイクワードで構成されたカスタム音声コマンドコーパスから構築された。
論文参考訳（メタデータ） (2025-06-16T16:30:19Z)
Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus [0.0]
本稿では,低音源音声合成コーパスであるLoReSpeechの構築手法を提案する。 LoReSpeechは言語内アライメントと言語間アライメントの両方を提供し、多言語ASRシステムの進歩を可能にする。
論文参考訳（メタデータ） (2025-02-25T14:00:15Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文参考訳（メタデータ） (2024-06-24T15:58:15Z)
Code-Switched Urdu ASR for Noisy Telephonic Environment using Data Centric Approach with Hybrid HMM and CNN-TDNN [0.0]
ウルドゥー語は世界で10番目に広く話されている言語であり、世界中で231,295,440が今もASRの資源制約言語として残っている。本稿では,雑音の多いコールセンタ環境下で,リソース効率の良い音声認識/音声音声テキストシステムの実装フレームワークについて述べる。
論文参考訳（メタデータ） (2023-07-24T13:04:21Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。 OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文参考訳（メタデータ） (2023-06-10T11:04:10Z)
PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文参考訳（メタデータ） (2023-06-05T15:53:15Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文参考訳（メタデータ） (2021-06-24T13:20:40Z)
KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。 KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。 KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文参考訳（メタデータ） (2020-09-07T13:25:36Z)
A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文参考訳（メタデータ） (2020-08-10T08:12:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。