論文の概要: Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.08577v1
- Date: Wed, 14 Jun 2023 15:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:30:05.151088
- Title: Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition
- Title(参考訳): 低リソース音声認識改善のためのデータ拡張のための言語間マッピングの学習
- Authors: Muhammad Umar Farooq, Thomas Hain
- Abstract要約: 言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 31.575930914290762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploiting cross-lingual resources is an effective way to compensate for data
scarcity of low resource languages. Recently, a novel multilingual model fusion
technique has been proposed where a model is trained to learn cross-lingual
acoustic-phonetic similarities as a mapping function. However, handcrafted
lexicons have been used to train hybrid DNN-HMM ASR systems. To remove this
dependency, we extend the concept of learnable cross-lingual mappings for
end-to-end speech recognition. Furthermore, mapping models are employed to
transliterate the source languages to the target language without using
parallel data. Finally, the source audio and its transliteration is used for
data augmentation to retrain the target language ASR. The results show that any
source language ASR model can be used for a low-resource target language
recognition followed by proposed mapping model. Furthermore, data augmentation
results in a relative gain up to 5% over baseline monolingual model.
- Abstract(参考訳): 言語間リソースの利用は、低リソース言語の不足を補う効果的な方法である。
近年,多言語モデル融合手法が提案され,言語間音響-音韻類似性を写像関数として学習するためのモデルが訓練されている。
しかし、手作りのレキシコンはハイブリッドDNN-HMM ASRシステムの訓練に使われてきた。
この依存関係を取り除くために、エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張する。
さらに、並列データを用いずに、ソース言語をターゲット言語に翻訳するマッピングモデルも採用している。
最後に、ソースオーディオとその音訳をデータ拡張に使用して、ターゲット言語ASRを再トレーニングする。
その結果,任意のソース言語ASRモデルを用いて低リソースターゲット言語認識を行い,その後にマッピングモデルを提案する。
さらに、データ拡張により、ベースライン単言語モデルよりも5%以上の相対的なゲインが得られる。
関連論文リスト
- Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - Non-Linear Pairwise Language Mappings for Low-Resource Multilingual
Acoustic Model Fusion [26.728287476234538]
ハイブリッドDNN-HMM音響モデル融合は低リソース言語のための多言語構成で提案される。
異なる単言語音響モデルから対象言語音声信号に対する後部分布を融合する。
ソースターゲット言語ペア毎に別々の回帰ニューラルネットワークをトレーニングし、ソースアコースティックモデルからターゲット言語へ後部を変換する。
論文 参考訳(メタデータ) (2022-07-07T15:56:50Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。