論文の概要: KinSPEAK: Improving speech recognition for Kinyarwanda via
semi-supervised learning methods
- arxiv url: http://arxiv.org/abs/2308.11863v2
- Date: Wed, 17 Jan 2024 01:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:04:18.956799
- Title: KinSPEAK: Improving speech recognition for Kinyarwanda via
semi-supervised learning methods
- Title(参考訳): kinspeak:半教師付き学習手法によるkinyarwandaの音声認識改善
- Authors: Antoine Nzeyimana
- Abstract要約: 本研究では, 自己教師付き事前学習を, 微調整中の簡単なカリキュラムスケジュールに従って実施し, 半教師付き学習により, キニャルワンダの音声認識性能を大幅に向上させることを示した。
我々のモデルは、新しいデータセットで3.2%のワードエラー率(WER)、Mozilla Common Voiceベンチマークで15.9%のWERを達成した。
また,文字ベースのトークン化よりもシラビックを用いることで,キンヤルワンダの音声認識性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 3.3721926640077804
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite recent availability of large transcribed Kinyarwanda speech data,
achieving robust speech recognition for Kinyarwanda is still challenging. In
this work, we show that using self-supervised pre-training, following a simple
curriculum schedule during fine-tuning and using semi-supervised learning to
leverage large unlabelled speech data significantly improve speech recognition
performance for Kinyarwanda. Our approach focuses on using public domain data
only. A new studio-quality speech dataset is collected from a public website,
then used to train a clean baseline model. The clean baseline model is then
used to rank examples from a more diverse and noisy public dataset, defining a
simple curriculum training schedule. Finally, we apply semi-supervised learning
to label and learn from large unlabelled data in four successive generations.
Our final model achieves 3.2% word error rate (WER) on the new dataset and
15.9% WER on Mozilla Common Voice benchmark, which is state-of-the-art to the
best of our knowledge. Our experiments also indicate that using syllabic rather
than character-based tokenization results in better speech recognition
performance for Kinyarwanda.
- Abstract(参考訳): 近年,Kinyarwanda音声データが大規模に書き起こされているにもかかわらず,Kinyarwandaの頑健な音声認識はいまだに困難である。
本研究では,微調整中の簡単なカリキュラムスケジュールに従って,自己教師付き事前学習を行い,半教師付き学習を用いて大きなラベルなし音声データを活用することにより,kinyarwandaの音声認識性能が大幅に向上することを示す。
我々のアプローチはパブリックドメインデータのみを使うことに重点を置いている。
新しいスタジオ品質の音声データセットは、公開ウェブサイトから収集され、クリーンなベースラインモデルをトレーニングするために使用される。
クリーンベースラインモデルは、より多様で騒がしい公開データセットの例をランク付けするために使用され、単純なカリキュラムトレーニングスケジュールを定義する。
最後に,4世代連続の大規模未ラベルデータのラベル付けと学習に半教師付き学習を適用した。
私たちの最終的なモデルは、新しいデータセットで3.2%の単語誤り率(wer)、mozilla common voiceベンチマークで15.9%のwerを達成しています。
また,文字ベースのトークン化ではなく音節を用いることで,キニルワンダの音声認識性能が向上することを示す。
関連論文リスト
- Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text [22.19230427358921]
表現不足の言語でWhisperのパフォーマンスを改善する方法について研究する価値がある。
我々は、アクセシブル・アンペア音声とテキストデータを利用し、言語モデルGPTとカザフ語Whisperを組み合わせた。
複数の実験で10%以上の絶対WER削減を達成した。
論文 参考訳(メタデータ) (2024-08-10T13:39:13Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Device Directedness with Contextual Cues for Spoken Dialog Systems [15.96415881820669]
本研究では,バージイン検証を,音声のみの情報を用いてユーザの音声対話を真偽のバージインに分類する教師付き学習タスクとして定義する。
下流分類タスクに自己教師付き表現学習モデルから低レベル音声表現を用いる。
プレトレーニング中に暗黙的に学習されたドメイン固有言語情報を改善するために,語彙情報を音声表現に直接注入する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-23T19:49:11Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Simple and Effective Zero-shot Cross-lingual Phoneme Recognition [46.76787843369816]
本稿では,複数言語で事前訓練されたwav2vec 2.0モデルを微調整し,未知の言語を転写することで,ゼロショット・クロスリンガル変換学習に関するこれまでの研究を拡張した。
実験によると、この単純な手法はタスク固有のアーキテクチャを導入した以前の作業よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-23T22:50:32Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。