論文の概要: Improving Automatic Speech Recognition for Non-Native English with
Transfer Learning and Language Model Decoding
- arxiv url: http://arxiv.org/abs/2202.05209v1
- Date: Thu, 10 Feb 2022 18:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 16:51:24.212582
- Title: Improving Automatic Speech Recognition for Non-Native English with
Transfer Learning and Language Model Decoding
- Title(参考訳): 移動学習と言語モデル復号による非ネイティブ英語の自動音声認識の改善
- Authors: Peter Sullivan, Toshiko Shibano, Muhammad Abdul-Mageed
- Abstract要約: 訓練済みwav2vec 2.0モデル citebaevski 2020wav2vec,xu2021self のL1およびL2訓練条件下での微調整について検討した。
We found that that the large self-trained wav2vec 2.0 may be internalizing enough decoding knowledge for clean L1 speech, this is not hold for L2 speech。
- 参考スコア(独自算出の注目度): 6.68194398006805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASR systems designed for native English (L1) usually underperform on
non-native English (L2). To address this performance gap, \textbf{(i)} we
extend our previous work to investigate fine-tuning of a pre-trained wav2vec
2.0 model \cite{baevski2020wav2vec,xu2021self} under a rich set of L1 and L2
training conditions. We further \textbf{(ii)} incorporate language model
decoding in the ASR system, along with the fine-tuning method. Quantifying
gains acquired from each of these two approaches separately and an error
analysis allows us to identify different sources of improvement within our
models. We find that while the large self-trained wav2vec 2.0 may be
internalizing sufficient decoding knowledge for clean L1 speech
\cite{xu2021self}, this does not hold for L2 speech and accounts for the
utility of employing language model decoding on L2 data.
- Abstract(参考訳): ネイティブ・イングリッシュ(L1)用に設計されたASRシステムは、通常、非ネイティブ・イングリッシュ(L2)で性能が劣る。
このパフォーマンスギャップに対処するために、 \textbf{
i) 事前訓練したwav2vec 2.0モデル \cite{baevski 2020wav2vec,xu2021self} のL1およびL2訓練条件下での微調整について検討する。
さらに、textbf{ です。
(II) 言語モデルの復号化をASRシステムに組み込むとともに, 微調整手法を取り入れた。
これら2つのアプローチのそれぞれから得られたゲインの定量化とエラー解析により、モデル内の異なる改善源を特定することができる。
大規模自己学習されたwav2vec 2.0は、クリーンl1音声の十分な復号知識を内部化している可能性があるが、これはl2音声には当てはまらない。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Learning Language-Specific Layers for Multilingual Machine Translation [1.997704019887898]
言語特化トランスフォーマー層(LSL)を紹介する。
LSLは、計算量と前方通過定数のパラメータ数を保ちながら、モデルのキャパシティを向上させることができる。
我々は、ニューラルネットワーク探索にインスパイアされたアプローチを用いて、これらの層を配置する最善の方法を研究し、分離されたデコーダアーキテクチャではLSLを使用しない 1.3 chrF (1.5 spBLEU) 点、共有デコーダでは 1.9 chrF (2.2 spBLEU) 点の改善を実現した。
論文 参考訳(メタデータ) (2023-05-04T09:18:05Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Language-specific Characteristic Assistance for Code-switching Speech
Recognition [42.32330582682405]
デュアルエンコーダ構造は、2つの言語固有エンコーダ(LSE)をコードスイッチング音声認識にうまく利用している。
既存のメソッドはLSEに言語制約を持たず、LSMの言語固有の知識を未利用にしている。
上記の問題を緩和するための言語特化支援法(LSCA)を提案する。
論文 参考訳(メタデータ) (2022-06-29T13:39:51Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 [7.378368959253632]
モノリンガルなwav2vec-2.0は、いくつかの言語でASR学習者として優れていることを示す。
この研究の重要な発見は、適応されたモノリンガルwav2vec-2.0が、トップラインのマルチリンガルXLSRモデルと同様のパフォーマンスを達成することである。
論文 参考訳(メタデータ) (2021-10-07T15:29:22Z) - Speech Technology for Everyone: Automatic Speech Recognition for
Non-Native English with Transfer Learning [0.0]
非ネイティブな英語音声コーパスであるL2-ARCTIC上で、事前訓練したwav2vec 2.0モデルの微調整を評価する。
本実験は,非母国英語話者を対象としたASRモデルの開発を実証するものである。
論文 参考訳(メタデータ) (2021-10-01T23:11:00Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。