論文の概要: Towards scalable efficient on-device ASR with transfer learning
- arxiv url: http://arxiv.org/abs/2407.16664v1
- Date: Tue, 23 Jul 2024 17:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:26:03.303605
- Title: Towards scalable efficient on-device ASR with transfer learning
- Title(参考訳): 転送学習によるスケーラブルなデバイス上でのASRの実現に向けて
- Authors: Laxmi Pandey, Ke Li, Jinxi Guo, Debjyoti Paul, Arthur Guo, Jay Mahadeokar, Xuedong Zhang,
- Abstract要約: 転送学習のための多言語事前学習は、低リソース単言語ASRモデルのロバスト性を大幅に向上させる。
我々の発見は、RNNT-loss pretrainingに続いて、MinWER(Minmum Word Error Rate)による単言語微調整により、イタリア語やフランス語などの言語での単語誤り率(WER)が一貫して減少することを示している。
- 参考スコア(独自算出の注目度): 13.137354875354372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual pretraining for transfer learning significantly boosts the robustness of low-resource monolingual ASR models. This study systematically investigates three main aspects: (a) the impact of transfer learning on model performance during initial training or fine-tuning, (b) the influence of transfer learning across dataset domains and languages, and (c) the effect on rare-word recognition compared to non-rare words. Our finding suggests that RNNT-loss pretraining, followed by monolingual fine-tuning with Minimum Word Error Rate (MinWER) loss, consistently reduces Word Error Rates (WER) across languages like Italian and French. WER Reductions (WERR) reach 36.2% and 42.8% compared to monolingual baselines for MLS and in-house datasets. Out-of-domain pretraining leads to 28% higher WERR than in-domain pretraining. Both rare and non-rare words benefit, with rare words showing greater improvements with out-of-domain pretraining, and non-rare words with in-domain pretraining.
- Abstract(参考訳): 転送学習のための多言語事前学習は、低リソース単言語ASRモデルのロバスト性を大幅に向上させる。
本研究は3つの主要な側面を体系的に研究する。
(a)移行学習が初等訓練や微調整時のモデル性能に及ぼす影響
b)データセットドメインや言語間の伝達学習の影響
(c)非まれな単語と比較して希少な単語認識に影響を及ぼす。
我々の発見は、RNNT-loss pretrainingに続いて、MinWER(Minmum Word Error Rate)による単言語微調整により、イタリア語やフランス語などの言語での単語誤り率(WER)が一貫して減少することを示している。
WER Reductions (WERR) は、MLSや社内データセットのモノリンガルベースラインと比較して36.2%、42.8%に達する。
ドメイン外プレトレーニングは、ドメイン内プレトレーニングよりも28%高いWERRをもたらす。
希少な単語と非希少な単語の両方が有用であり、希少な単語は非非希少な単語と非希少な単語はドメイン内事前訓練により改善されている。
関連論文リスト
- Self-supervised Adaptive Pre-training of Multilingual Speech Models for
Language and Dialect Identification [19.893213508284813]
目標領域や下流タスクの言語に事前学習モデルを適用するために,自己教師付き適応型事前学習を提案する。
SPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。
論文 参考訳(メタデータ) (2023-12-12T14:58:08Z) - Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Joint Unsupervised and Supervised Training for Multilingual ASR [43.46155711288589]
本稿では、教師付きRNN-T損失と自己監督型コントラスト言語モデリング(MLM)損失を組み合わせた、エンドツーエンドのJUST(Joint Unsupervised and Supervised Training)手法を提案する。
8言語を含む公開データセットであるLibriSpeech(MLS)の性能を検証し、極めて不均衡である。
実験により、JUSTは既存の最先端手法を一貫して上回り、モノリンガルベースラインをかなりの差で打ち負かすことができることが示された。
論文 参考訳(メタデータ) (2021-11-15T23:11:24Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z) - Improving low-resource ASR performance with untranscribed out-of-domain
data [8.376091455761259]
半教師あり訓練(SST)は、非転写/ラベルなし音声データを活用する一般的な手法である。
Web リソースを用いた会話/電話音声(ターゲットドメイン)の性能向上を図る。
論文 参考訳(メタデータ) (2021-06-02T15:23:34Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。