論文の概要: Advancing LLM-based phoneme-to-grapheme for multilingual speech recognition
- arxiv url: http://arxiv.org/abs/2603.29217v1
- Date: Tue, 31 Mar 2026 03:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.083014
- Title: Advancing LLM-based phoneme-to-grapheme for multilingual speech recognition
- Title(参考訳): LLMに基づく多言語音声認識のための音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素
- Authors: Lukuang Dong, Ziwei Li, Saierdaer Yusuyin, Xianyu Zhao, Zhijian Ou,
- Abstract要約: 音素に基づくASRは音声認識を音声合成(S2P)と音素合成(P2G)に分解する
- 参考スコア(独自算出の注目度): 7.1298369596156475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phoneme-based ASR factorizes recognition into speech-to-phoneme (S2P) and phoneme-to-grapheme (P2G), enabling cross-lingual acoustic sharing while keeping language-specific orthography in a separate module. While large language models (LLMs) are promising for P2G, multilingual P2G remains challenging due to language-aware generation and severe cross-language data imbalance. We study multilingual LLM-based P2G on the ten-language CV-Lang10 benchmark. We examine robustness strategies that account for S2P uncertainty, including DANP and Simplified SKM (S-SKM). S-SKM is a Monte Carlo approximation that avoids CTC-based S2P probability weighting in P2G training. Robust training and low-resource oversampling reduce the average WER from 10.56% to 7.66%.
- Abstract(参考訳): 音素ベースのASRは、音声認識を音声合成(S2P)と音素合成(P2G)に分解し、言語固有の正書法を別モジュールに保持しながら、言語間音響共有を可能にする。
大規模言語モデル(LLM)はP2Gに対して有望であるが,多言語P2Gは言語認識の生成と言語間のデータ不均衡が激しいため,依然として困難である。
我々は10言語CV-Lang10ベンチマークを用いて多言語LLMベースのP2Gについて検討した。
DANP,Simplified SKM (S-SKM) を含むS2Pの不確実性を考慮したロバストネス戦略を検討した。
S-SKMはモンテカルロ近似であり、P2GトレーニングにおけるCTCベースのS2P確率重み付けを回避する。
ロバストなトレーニングと低リソースのオーバーサンプリングにより、平均的なWERは10.56%から7.66%に減少した。
関連論文リスト
- An Empirical Recipe for Universal Phone Recognition [63.45609714127985]
音声認識(PR)は、多言語および低リソースの音声処理タスクの鍵となる機能である。
我々は、大規模多言語データに基づいて訓練されたPhonticXEUSを提案する。
多言語(17.7%PFER)とアクセント付き英語(10.6%PFER)の両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-03-30T22:12:48Z) - Towards Unsupervised Speech Recognition at the Syllable-Level [95.54031547995874]
マスク付き言語モデリングに基づく音節レベルのUASRフレームワークを提案する。
我々は,従来の手法では特に難しい言語であるマンダリンを効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-04T02:56:33Z) - Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation [12.39451124683428]
本稿では,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。
多言語事前学習S2Pモデルに基づいて,ポーランド語とインドネシア語でクロスリンガル実験を行った。
10分間しか音素の監督を行ない、新しい手法であるJSA-SPGは5%の誤り率の低減を実現した。
論文 参考訳(メタデータ) (2025-07-04T12:23:22Z) - LLM-based phoneme-to-grapheme for phoneme-based speech recognition [11.552927239284582]
音素自動音声認識(ASR)のための音素間符号化(LLM-P2G)を提案する。
実験の結果, LLM-P2G はポーランド語とドイツ語の交叉型 ASR において, WER の相対減少率 3.6% と 6.9% でWFST 系よりも優れていた。
論文 参考訳(メタデータ) (2025-06-05T07:35:55Z) - Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual
Speech Recognition [58.849768879796905]
エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークであるAdapt-and-Adjust (A2)を提案する。
A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。
論文 参考訳(メタデータ) (2020-12-03T03:46:16Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。