論文の概要: Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training
- arxiv url: http://arxiv.org/abs/2407.13292v1
- Date: Thu, 18 Jul 2024 08:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:12:25.895825
- Title: Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training
- Title(参考訳): 弱教師付き音素ベース多言語事前学習によるIu Mien言語に対する低音源音声認識
- Authors: Lukuan Dong, Donghong Qin, Fengbo Bai, Fanhua Song, Yan Liu, Chen Xu, Zhijian Ou,
- Abstract要約: 本研究は,10時間未満のIu Mien言語を用いて,Iu Mien音声認識における3つのアプローチについて検討・比較する。
その結果,音素の監督はサブワードの監督や自己監督よりも優れた結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 12.460425460648516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mainstream automatic speech recognition (ASR) technology usually requires hundreds to thousands of hours of annotated speech data. Three approaches to low-resourced ASR are phoneme or subword based supervised pre-training, and self-supervised pre-training over multilingual data. The Iu Mien language is the main ethnic language of the Yao ethnic group in China and is low-resourced in the sense that the annotated speech is very limited. With less than 10 hours of transcribed Iu Mien language, this paper investigates and compares the three approaches for Iu Mien speech recognition. Our experiments are based on the recently released, three backbone models pretrained over the 10 languages from the CommonVoice dataset (CV-Lang10), which correspond to the three approaches for low-resourced ASR. It is found that phoneme supervision can achieve better results compared to subword supervision and self-supervision, thereby providing higher data-efficiency. Particularly, the Whistle models, i.e., obtained by the weakly-supervised phoneme-based multilingual pre-training, obtain the most competitive results.
- Abstract(参考訳): 主流の自動音声認識(ASR)技術は通常、何百時間から何千時間もの注釈付き音声データを必要とする。
低リソースASRへの3つのアプローチは、音素またはサブワードに基づく教師付き事前学習と、多言語データに対する自己教師付き事前学習である。
イウ・ミエン語(Iu Mien language)は、中国におけるヤオ族の主要な民族言語であり、注釈付き言語が非常に限られているという意味では低資源である。
本研究は,10時間未満のIu Mien言語を用いて,Iu Mien音声認識における3つのアプローチについて検討・比較する。
我々の実験は、最近リリースされたCommonVoiceデータセット(CV-Lang10)から10言語で事前訓練された3つのバックボーンモデルに基づいています。
その結果,音素の監督はサブワードの監督や自己監督よりも優れた結果が得られ,高いデータ効率が得られることがわかった。
特に、弱い教師付き音素ベースの多言語事前学習によって得られるウィスルモデルが最も競争力のある結果を得る。
関連論文リスト
- Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision [16.992058149317753]
本稿では,データ効率のよい自動音声認識(MCLASR)に対する音声指導の弱い事前学習のアプローチについて検討する。
我々は,LanguageNet grapheme-to-phoneme(G2P)モデルを活用して,ゴールドスタンダードな人間検証音声書き起こしの要求を緩和し,国際音声アルファベット(IPA)に基づく書き起こしを得る。
MCL-ASRにおける音素モデルの有効性を示す実験では, 未知言語に対する音声認識, 数ショットのデータ量の違いによる言語間のクロスリンガル性能, 破滅的な忘れ込み, 訓練効率を克服した。
論文 参考訳(メタデータ) (2024-06-04T09:56:05Z) - Language-Universal Phonetic Representation in Multilingual Speech
Pretraining for Low-Resource Speech Recognition [28.21805271848413]
我々は、IPA(International Phonetic Alphabet)多言語モデルを用いて、未ラベル音声のためのフレームレベルの擬似ラベルを作成する。
我々はこれらの擬似ラベルを用いて隠れユニットBERT(HuBERT)に基づく事前学習を音声インフォームドで案内する。
当社のアプローチは、時間と言語の多様性の観点から、事前学習データが少なくて、芸術のほとんどの州よりも優れています。
論文 参考訳(メタデータ) (2023-05-19T10:15:11Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:11:18Z) - Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with
Articulatory Features [30.37026279162593]
本研究では,言語間で保持される音素表現を学習するために,音素の同一性から導かれる埋め込みではなく,調音ベクトルから導出される埋め込みを用いる。
これにより、これまで見られなかった話者が話していた、30分間のデータで高品質なテキスト音声モデルを微調整できる。
論文 参考訳(メタデータ) (2022-03-07T07:58:01Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。