論文の概要: Killkan: The Automatic Speech Recognition Dataset for Kichwa with Morphosyntactic Information
- arxiv url: http://arxiv.org/abs/2404.15501v1
- Date: Tue, 23 Apr 2024 20:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 15:13:10.059699
- Title: Killkan: The Automatic Speech Recognition Dataset for Kichwa with Morphosyntactic Information
- Title(参考訳): Killkan: モルフォシンタクティック情報を用いたキチワの自動音声認識データセット
- Authors: Chihiro Taguchi, Jefferson Saransig, Dayana Velásquez, David Chiang,
- Abstract要約: 本稿では,エクアドル原住民の言語であるキチワ語における自動音声認識(ASR)のための最初のデータセットであるキルカンについて述べる。
このデータセットは、スペイン語への翻訳と、Universal Dependenciesの形式でのモルフォシンタクティックアノテーションを含む約4時間の音声を含む。
実験の結果、データセットのサイズが小さいにもかかわらず、信頼性の高い品質で、データセットが最初のASRシステムの開発を可能にすることが示された。
- 参考スコア(独自算出の注目度): 8.099700053397278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Killkan, the first dataset for automatic speech recognition (ASR) in the Kichwa language, an indigenous language of Ecuador. Kichwa is an extremely low-resource endangered language, and there have been no resources before Killkan for Kichwa to be incorporated in applications of natural language processing. The dataset contains approximately 4 hours of audio with transcription, translation into Spanish, and morphosyntactic annotation in the format of Universal Dependencies. The audio data was retrieved from a publicly available radio program in Kichwa. This paper also provides corpus-linguistic analyses of the dataset with a special focus on the agglutinative morphology of Kichwa and frequent code-switching with Spanish. The experiments show that the dataset makes it possible to develop the first ASR system for Kichwa with reliable quality despite its small dataset size. This dataset, the ASR model, and the code used to develop them will be publicly available. Thus, our study positively showcases resource building and its applications for low-resource languages and their community.
- Abstract(参考訳): 本稿では,エクアドル原住民の言語であるキチワ語における自動音声認識(ASR)のための最初のデータセットであるキルカンについて述べる。
Kichwaは、非常に低リソースの絶滅危惧言語であり、Kilkanが自然言語処理の応用に組み込まれるためのリソースはない。
このデータセットは、スペイン語への翻訳と、Universal Dependenciesの形式でのモルフォシンタクティックアノテーションを含む約4時間の音声を含む。
音声データはキチワで公開されているラジオ番組から検索された。
また, このデータセットのコーパス言語学的解析を行い, キクワの凝集形態とスペイン語の頻繁なコードスイッチングに着目した。
実験により、データセットのサイズが小さいにもかかわらず、信頼性の高い品質で、データセットが最初のASRシステムの開発を可能にすることが示された。
このデータセット、ASRモデル、およびそれらを開発するために使用されるコードは、一般公開される予定である。
そこで本研究では,低リソース言語とそのコミュニティへのリソース構築とその応用について,肯定的に紹介する。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - Automatic Speech Recognition of Low-Resource Languages Based on Chukchi [0.0]
チュクチ語の完全なコーパスは存在しないため、そのほとんどがオープンソースからチュクチ語の音声やテキストを収集して処理することであった。
21:34:23時間の音声記録と112,719文(または2,068,273語)を中吉語で収集した。
XLSRモデルは得られたデータに基づいて訓練され、少量のデータでも良好な結果が得られた。
論文 参考訳(メタデータ) (2022-10-11T18:37:15Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Effectiveness of text to speech pseudo labels for forced alignment and
cross lingual pretrained models for low resource speech recognition [0.0]
本稿では,Maithili,Bhojpuri,Dogriのラベル付きデータ作成手法を提案する。
すべてのデータとモデルはオープンドメインで利用可能である。
論文 参考訳(メタデータ) (2022-03-31T06:12:52Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文 参考訳(メタデータ) (2020-12-09T21:41:40Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。