論文の概要: A Practitioner's Guide to Building ASR Models for Low-Resource Languages: A Case Study on Scottish Gaelic
- arxiv url: http://arxiv.org/abs/2506.04915v1
- Date: Thu, 05 Jun 2025 11:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.683947
- Title: A Practitioner's Guide to Building ASR Models for Low-Resource Languages: A Case Study on Scottish Gaelic
- Title(参考訳): 低リソース言語のためのASRモデル構築のための実践者ガイド:スコットランドゲール語を事例として
- Authors: Ondřej Klejch, William Lamb, Peter Bell,
- Abstract要約: 低リソース言語のためのASRシステムの開発における効果的なアプローチは、既存の多言語のエンドツーエンドモデルを微調整することである。
本稿では,ハイブリッドHMMと自己教師付きモデルを組み合わせることで,限られたトレーニングデータによる大幅な性能向上が期待できることを示す。
We benchmark our approach on Scottish Gaelic, achieve WER reductions 32% relative of our best fine-tuned Whisper model。
- 参考スコア(独自算出の注目度): 9.380879437204277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An effective approach to the development of ASR systems for low-resource languages is to fine-tune an existing multilingual end-to-end model. When the original model has been trained on large quantities of data from many languages, fine-tuning can be effective with limited training data, even when the language in question was not present in the original training data. The fine-tuning approach has been encouraged by the availability of public-domain E2E models and is widely believed to lead to state-of-the-art results. This paper, however, challenges that belief. We show that an approach combining hybrid HMMs with self-supervised models can yield substantially better performance with limited training data. This combination allows better utilisation of all available speech and text data through continued self-supervised pre-training and semi-supervised training. We benchmark our approach on Scottish Gaelic, achieving WER reductions of 32% relative over our best fine-tuned Whisper model.
- Abstract(参考訳): 低リソース言語のためのASRシステムの開発における効果的なアプローチは、既存の多言語のエンドツーエンドモデルを微調整することである。
元のモデルが多くの言語から大量のデータに基づいて訓練された場合、問題の言語が元のトレーニングデータに存在しない場合でも、細調整は限られたトレーニングデータで有効である。
ファインチューニングのアプローチは、パブリックドメインのE2Eモデルの可用性によって奨励され、最先端の結果につながると広く信じられている。
しかし、この論文はその信念に異議を唱える。
本稿では,ハイブリッドHMMと自己教師付きモデルを組み合わせることで,限られたトレーニングデータによる大幅な性能向上が期待できることを示す。
この組み合わせにより、継続した自己教師付き事前訓練と半教師付きトレーニングを通じて、利用可能なすべての音声およびテキストデータのより良い活用が可能になる。
We benchmark our approach on Scottish Gaelic, achieve WER reductions 32% relative of our best fine-tuned Whisper model。
関連論文リスト
- Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前教師付きトレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。
我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-27T12:50:55Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文 参考訳(メタデータ) (2022-05-31T12:29:25Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。
そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。
IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-10-12T04:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。