論文の概要: KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition
- arxiv url: http://arxiv.org/abs/2009.03092v2
- Date: Sat, 26 Sep 2020 17:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 03:13:38.451644
- Title: KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition
- Title(参考訳): KoSpeech: エンドツーエンドの韓国語音声認識のためのオープンソースツールキット
- Authors: Soohwan Kim, Seyoung Bae, Cheolhwang Won
- Abstract要約: KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
- 参考スコア(独自算出の注目度): 1.7955614278088239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present KoSpeech, an open-source software, which is modular and extensible
end-to-end Korean automatic speech recognition (ASR) toolkit based on the deep
learning library PyTorch. Several automatic speech recognition open-source
toolkits have been released, but all of them deal with non-Korean languages,
such as English (e.g. ESPnet, Espresso). Although AI Hub opened 1,000 hours of
Korean speech corpus known as KsponSpeech, there is no established
preprocessing method and baseline model to compare model performances.
Therefore, we propose preprocessing methods for KsponSpeech corpus and a
baseline model for benchmarks. Our baseline model is based on Listen, Attend
and Spell (LAS) architecture and ables to customize various training
hyperparameters conveniently. By KoSpeech, we hope this could be a guideline
for those who research Korean speech recognition. Our baseline model achieved
10.31% character error rate (CER) at KsponSpeech corpus only with the acoustic
model. Our source code is available here.
- Abstract(参考訳): ディープラーニングライブラリPyTorchをベースとした,モジュール型かつ拡張可能な韓国語自動音声認識(ASR)ツールキットであるKoSpeechを提案する。
いくつかの自動音声認識オープンソースツールキットがリリースされたが、いずれも英語(例えばESPnet、エスプレッソ)のような非韓国語を扱う。
AI HubはKsponSpeechとして知られる韓国語音声コーパスを1000時間開放したが、モデル性能を比較するために確立された事前処理方法とベースラインモデルはない。
そこで我々は,KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
我々のベースラインモデルはlisten, attend, spell (las)アーキテクチャに基づいており、様々なトレーニングハイパーパラメータを便利にカスタマイズできます。
KoSpeechによると、これは韓国の音声認識を研究する人たちのためのガイドラインになるだろう。
ベースラインモデルは音響モデルのみを用いて, ksponspeechコーパスで10.31%の文字誤り率(cer)を達成した。
ソースコードはこちらから入手できます。
関連論文リスト
- SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language
Models [58.996653700982556]
既存の音声トークンは、特に音声言語モデリングのために設計されていない。
音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。
実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2023-08-31T12:53:09Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline [0.0]
本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
論文 参考訳(メタデータ) (2022-06-27T09:30:25Z) - K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of
Graphemes and Syllables [2.0813318162800707]
K-Wav2Vec 2.0は、韓国の音声認識用に設計されたWav2vec 2.0の改良版である。
微調整において,韓国の文字構造を反映したマルチタスク階層アーキテクチャを提案する。
事前学習では,韓国のデータセット上で,英語のWav2vec 2.0をさらに事前学習することで,事前学習モデルの言語間移動を試みた。
論文 参考訳(メタデータ) (2021-10-11T11:53:12Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。