論文の概要: Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation
- arxiv url: http://arxiv.org/abs/2507.06249v1
- Date: Fri, 04 Jul 2025 12:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.312641
- Title: Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation
- Title(参考訳): 音素をベースとしたクロスリンガルASRの確率論的近似による発音・語彙自由トレーニング
- Authors: Saierdaer Yusuyin, Te Ma, Hao Huang, Zhijian Ou,
- Abstract要約: 本稿では,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。
多言語事前学習S2Pモデルに基づいて,ポーランド語とインドネシア語でクロスリンガル実験を行った。
10分間しか音素の監督を行ない、新しい手法であるJSA-SPGは5%の誤り率の低減を実現した。
- 参考スコア(独自算出の注目度): 12.39451124683428
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, pre-trained models with phonetic supervision have demonstrated their advantages for crosslingual speech recognition in data efficiency and information sharing across languages. However, a limitation is that a pronunciation lexicon is needed for such phoneme-based crosslingual speech recognition. In this study, we aim to eliminate the need for pronunciation lexicons and propose a latent variable model based method, with phonemes being treated as discrete latent variables. The new method consists of a speech-to-phoneme (S2P) model and a phoneme-to-grapheme (P2G) model, and a grapheme-to-phoneme (G2P) model is introduced as an auxiliary inference model. To jointly train the three models, we utilize the joint stochastic approximation (JSA) algorithm, which is a stochastic extension of the EM (expectation-maximization) algorithm and has demonstrated superior performance particularly in estimating discrete latent variable models. Based on the Whistle multilingual pre-trained S2P model, crosslingual experiments are conducted in Polish (130 h) and Indonesian (20 h). With only 10 minutes of phoneme supervision, the new method, JSA-SPG, achieves 5\% error rate reductions compared to the best crosslingual fine-tuning approach using subword or full phoneme supervision. Furthermore, it is found that in language domain adaptation (i.e., utilizing cross-domain text-only data), JSA-SPG outperforms the standard practice of language model fusion via the auxiliary support of the G2P model by 9% error rate reductions. To facilitate reproducibility and encourage further exploration in this field, we open-source the JSA-SPG training code and complete pipeline.
- Abstract(参考訳): 近年,データ効率と言語間の情報共有において,言語間音声認識の利点が実証されている。
しかし、このような音素に基づく言語間音声認識には発音辞書が必要である。
本研究では,発音辞書の必要性を解消し,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。
本手法は、音声合成モデル(S2P)と音声合成モデル(P2G)とから構成され、補助推論モデルとしてグラフ合成モデル(G2P)が導入される。
EM(expectation-maximization)アルゴリズムの確率拡張である関節確率近似(JSA)アルゴリズムを併用し,特に離散潜在変数モデルの推定において優れた性能を示した。
ウィスル多言語事前訓練S2Pモデルに基づいて、ポーランド (130 h) とインドネシア (20 h) でクロスリンガル実験を行う。
JSA-SPG法は,10分間の音素監督しか行わず,サブワードや全音素監督を用いた最高の言語間微調整法と比較して,誤差率を5倍に削減する。
さらに、言語領域適応(すなわち、クロスドメインテキストのみのデータを利用する)において、JSA-SPGは、G2Pモデルの補助的サポートを通じて、9%のエラー率削減による言語モデル融合の標準的実践よりも優れていることがわかった。
JSA-SPGトレーニングコードと完全パイプラインをオープンソースとして公開しています。
関連論文リスト
- Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision [16.992058149317753]
本稿では、データ効率自動音声認識(MCL-ASR)に対する弱音声指導による事前学習のアプローチについて検討する。
我々は,LanguageNet grapheme-to-phoneme(G2P)モデルを活用して,ゴールドスタンダードな人間検証音声書き起こしの要求を緩和し,国際音声アルファベット(IPA)に基づく書き起こしを得る。
MCL-ASRにおける音素モデルの有効性を示す実験では, 未知言語に対する音声認識, 数ショットのデータ量の違いによる言語間のクロスリンガル性能, 破滅的な忘れ込み, 訓練効率を克服した。
論文 参考訳(メタデータ) (2024-06-04T09:56:05Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Non-Linear Pairwise Language Mappings for Low-Resource Multilingual
Acoustic Model Fusion [26.728287476234538]
ハイブリッドDNN-HMM音響モデル融合は低リソース言語のための多言語構成で提案される。
異なる単言語音響モデルから対象言語音声信号に対する後部分布を融合する。
ソースターゲット言語ペア毎に別々の回帰ニューラルネットワークをトレーニングし、ソースアコースティックモデルからターゲット言語へ後部を変換する。
論文 参考訳(メタデータ) (2022-07-07T15:56:50Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。