論文の概要: Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon
- arxiv url: http://arxiv.org/abs/2102.07412v1
- Date: Mon, 15 Feb 2021 09:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:49:19.051624
- Title: Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon
- Title(参考訳): Jira:クルド語音声認識システムによる音声コーパスと発音辞書の設計と構築
- Authors: Hadi Veisi, Hawre Hosseini, Mohammad Mohammadamini (LIA), Wirya Fathy,
Aso Mahmudi
- Abstract要約: 中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
- 参考スコア(独自算出の注目度): 4.226093500082746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the first large vocabulary speech recognition
system (LVSR) for the Central Kurdish language, named Jira. The Kurdish
language is an Indo-European language spoken by more than 30 million people in
several countries, but due to the lack of speech and text resources, there is
no speech recognition system for this language. To fill this gap, we introduce
the first speech corpus and pronunciation lexicon for the Kurdish language.
Regarding speech corpus, we designed a sentence collection in which the ratio
of di-phones in the collection resembles the real data of the Central Kurdish
language. The designed sentences are uttered by 576 speakers in a controlled
environment with noise-free microphones (called AsoSoft Speech-Office) and in
Telegram social network environment using mobile phones (denoted as AsoSoft
Speech-Crowdsourcing), resulted in 43.68 hours of speech. Besides, a test set
including 11 different document topics is designed and recorded in two
corresponding speech conditions (i.e., Office and Crowdsourcing). Furthermore,
a 60K pronunciation lexicon is prepared in this research in which we faced
several challenges and proposed solutions for them. The Kurdish language has
several dialects and sub-dialects that results in many lexical variations. Our
methods for script standardization of lexical variations and automatic
pronunciation of the lexicon tokens are presented in detail. To setup the
recognition engine, we used the Kaldi toolkit. A statistical tri-gram language
model that is extracted from the AsoSoft text corpus is used in the system.
Several standard recipes including HMM-based models (i.e., mono, tri1, tr2,
tri2, tri3), SGMM, and DNN methods are used to generate the acoustic model.
These methods are trained with AsoSoft Speech-Office and AsoSoft
Speech-Crowdsourcing and a combination of them. The best performance achieved
by the SGMM acoustic model which results in 13.9% of the average word error
rate (on different document topics) and 4.9% for the general topic.
- Abstract(参考訳): 本稿では,中央クルド語における最初の大規模語彙音声認識システムであるJiraについて紹介する。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパの言語であるが、音声やテキストリソースが不足しているため、この言語の音声認識システムは存在しない。
このギャップを埋めるために,クルド語における最初の音声コーパスと発音語彙を紹介する。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
設計文は、ノイズのないマイク(AsoSoft Speech-Officeと呼ばれる)と携帯電話(AsoSoft Speech-Crowdsourcingと呼ばれる)を使用したテレグラムソーシャルネットワーク環境で576人のスピーカーによって発話され、43.68時間の音声が得られた。
さらに、11の異なるドキュメントトピックを含むテストセットが、対応する2つの音声条件(OfficeおよびCrowdsourcing)で設計および記録される。
さらに,本研究では,いくつかの課題と解決法を提案するため,60kの発音レキシコンを用意した。
クルド語にはいくつかの方言と下位方言があり、多くの語彙変化をもたらす。
本稿では,語彙変動のスクリプト標準化と語彙トークンの自動発音について詳細に述べる。
認識エンジンのセットアップには、kaldi toolkitを使用しました。
本システムでは、asosoftテキストコーパスから抽出した統計的トリグラム言語モデルを用いる。
HMMベースのモデル(Mono,tri1,tr2,tri2,tri3)、SGMM、DNNメソッドなど、いくつかの標準レシピが音響モデルを生成するために使用される。
これらの方法は、AsoSoft Speech-OfficeとAsoSoft Speech-Crowdsourcingとの組み合わせで訓練される。
SGMM音響モデルによって達成された最高の性能は、平均単語誤り率(異なる文書トピック)の13.9%と一般トピックの4.9%である。
関連論文リスト
- Language and Speech Technology for Central Kurdish Varieties [27.751434601712]
3000万人以上の話者が話すインド・ヨーロッパ語であるクルド語は、方言の連続語であると考えられている。
クルド語のための言語と音声技術に対処する以前の研究は、マクロ言語としてモノリシックな方法でそれを扱う。
本稿では,中央クルド語多種多様な言語・音声技術のための資源開発への一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-04T12:27:32Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm [29.701197643765674]
音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語文の音素バランスとリッチなセットを自動的に構築できるBAlanced Script Producer (BASPRO)システムを提案する。
論文 参考訳(メタデータ) (2022-12-11T02:05:30Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - The Interspeech Zero Resource Speech Challenge 2021: Spoken language
modelling [19.525392906001624]
本稿では,テキストやラベルを使わずに,音声から直接言語モデルを学ぶよう参加者に求めるゼロリソース音声チャレンジ2021を紹介する。
課題はLibri-lightデータセットに基づいており、関連するテキストなしで英語のオーディオブックから最大60k時間のオーディオを提供します。
論文 参考訳(メタデータ) (2021-04-29T23:53:37Z) - A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline [4.521450956414864]
カザフ語コーパス(KSC)は、様々な地域や年齢集団の参加者によって話される153,000以上の発声を含む約332時間の音声を含む。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
論文 参考訳(メタデータ) (2020-09-22T05:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。