論文の概要: Automatic Speech Recognition of Low-Resource Languages Based on Chukchi
- arxiv url: http://arxiv.org/abs/2210.05726v1
- Date: Tue, 11 Oct 2022 18:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:52:44.410274
- Title: Automatic Speech Recognition of Low-Resource Languages Based on Chukchi
- Title(参考訳): チュクチに基づく低リソース言語の自動音声認識
- Authors: Anastasia Safonova, Tatiana Yudina, Emil Nadimanov, Cydnie Davenport
- Abstract要約: チュクチ語の完全なコーパスは存在しないため、そのほとんどがオープンソースからチュクチ語の音声やテキストを収集して処理することであった。
21:34:23時間の音声記録と112,719文(または2,068,273語)を中吉語で収集した。
XLSRモデルは得られたデータに基づいて訓練され、少量のデータでも良好な結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The following paper presents a project focused on the research and creation
of a new Automatic Speech Recognition (ASR) based in the Chukchi language.
There is no one complete corpus of the Chukchi language, so most of the work
consisted in collecting audio and texts in the Chukchi language from open
sources and processing them. We managed to collect 21:34:23 hours of audio
recordings and 112,719 sentences (or 2,068,273 words) of text in the Chukchi
language. The XLSR model was trained on the obtained data, which showed good
results even with a small amount of data. Besides the fact that the Chukchi
language is a low-resource language, it is also polysynthetic, which
significantly complicates any automatic processing. Thus, the usual WER metric
for evaluating ASR becomes less indicative for a polysynthetic language.
However, the CER metric showed good results. The question of metrics for
polysynthetic languages remains open.
- Abstract(参考訳): 本稿では、チュクチ語に基づく新しい自動音声認識(asr)の研究と作成に焦点を当てたプロジェクトを提案する。
チュクチ語の完全なコーパスは存在しないため、そのほとんどがオープンソースからチュクチ語の音声やテキストを収集して処理することであった。
21:34:23時間の音声記録と112,719文(または2,068,273語)を中吉語で収集した。
XLSRモデルは得られたデータに基づいて訓練され、少量のデータでも良好な結果が得られた。
チュクチ語は低リソース言語であるという事実に加えて、自動処理を著しく複雑にする多合成言語でもある。
したがって、ASRを評価するための通常のWERメートル法は、多合成言語に対する指標が減る。
しかし,CER測定値は良好であった。
多合成言語におけるメトリクスの問題はまだ未解決である。
関連論文リスト
- Killkan: The Automatic Speech Recognition Dataset for Kichwa with Morphosyntactic Information [8.099700053397278]
本稿では,エクアドル原住民の言語であるキチワ語における自動音声認識(ASR)のための最初のデータセットであるキルカンについて述べる。
このデータセットは、スペイン語への翻訳と、Universal Dependenciesの形式でのモルフォシンタクティックアノテーションを含む約4時間の音声を含む。
実験の結果、データセットのサイズが小さいにもかかわらず、信頼性の高い品質で、データセットが最初のASRシステムの開発を可能にすることが示された。
論文 参考訳(メタデータ) (2024-04-23T20:26:07Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文 参考訳(メタデータ) (2022-09-16T18:20:16Z) - When Is TTS Augmentation Through a Pivot Language Useful? [26.084140117526488]
我々は,高出力のピボット言語のための訓練されたTSシステムを用いて,ターゲット言語からテキストを実行することによって,合成音声を生成することを提案する。
数千の合成TSテキスト音声ペアを使用し、実際のデータを複製して最適な結果を得る。
これらの発見の応用は、2つの低リソース言語に対してそれぞれ64.5%と45.0%の文字誤り低減率(CERR)を改善する。
論文 参考訳(メタデータ) (2022-07-20T13:33:41Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。