Fugu-MT 論文翻訳(概要): Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

論文の概要: Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

arxiv url: http://arxiv.org/abs/2603.11378v1
Date: Wed, 11 Mar 2026 23:45:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.714827
Title: Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data
Title（参考訳）: 低電源スワヒリASRの継続的な事前訓練:最小ラベルデータによる最先端性能の実現
Authors: Hillary Mutisya, John Mugane,
Abstract要約: We adapt wav2vec2-bert-2.0 to Swahili Automatic speech Recognition。 20,000のラベル付きサンプルにより、私たちはCommon Voice Swahiliで3.24%のWERを達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate continued pretraining (CPT) for adapting wav2vec2-bert-2.0 to Swahili automatic speech recognition (ASR). Our approach combines unlabeled audio with limited labeled data through pseudo-labeled CPT followed by supervised finetuning. With 20,000 labeled samples, we achieve 3.24% WER on Common Voice Swahili-an 82% relative improvement over the baseline. This result surpasses the best previously reported academic system (8.3% WER from XLS-R) by 61% relative improvement. We provide concrete data requirements and a replicable methodology applicable to other low-resource languages.
Abstract（参考訳）: We investigated continued pretraining (CPT) for adapting wav2vec2-bert-2.0 to Swahili Automatic speech Recognition (ASR)。提案手法は、擬似ラベル付きCPTと教師付き微調整によるラベル付き音声と、限定ラベル付きデータを組み合わせたものである。 20,000のラベル付きサンプルで、私たちはCommon Voice Swahiliで3.24%のWERを達成しました。この結果は、これまで報告された最も優れた学術システム(XLS-Rの8.3% WER)を61%の相対的な改善で上回っている。我々は、具体的なデータ要件と、他の低リソース言語に適用可能な複製可能な方法論を提供する。

関連論文リスト

Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition [0.0]
本稿では,OpenAI Whisperモデルを微調整するためのデータ拡張手法について述べる。スーダン方言の最初のベンチマークを確立している。
論文参考訳（メタデータ） (2026-01-11T08:28:31Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Strategies for improving low resource speech to text translation relying on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文参考訳（メタデータ） (2023-05-31T21:58:07Z)
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-25T00:37:34Z)
Self-Training with Purpose Preserving Augmentation Improves Few-shot Generative Dialogue State Tracking [14.709084509818474]
対話状態追跡(DST)では、データセットのラベル付けにはかなりの人的労力がかかる。そこで本稿では,ラベルなしデータを利用した少数ショット生成DSTのための新たな自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-17T07:13:58Z)
Improving Low-Resource Speech Recognition with Pretrained Speech Models: Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文参考訳（メタデータ） (2022-07-01T21:02:51Z)
Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文参考訳（メタデータ） (2021-11-19T05:09:16Z)
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。 We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文参考訳（メタデータ） (2020-10-20T17:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。