論文の概要: PAC: Pronunciation-Aware Contextualized Large Language Model-based Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2509.12647v1
- Date: Tue, 16 Sep 2025 04:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.876585
- Title: PAC: Pronunciation-Aware Contextualized Large Language Model-based Automatic Speech Recognition
- Title(参考訳): PAC: 文脈付き大言語モデルに基づく音声認識
- Authors: Li Fu, Yu Xin, Sunlu Zeng, Lu Fan, Youzheng Wu, Xiaodong He,
- Abstract要約: 本稿では,Large Language Model(LLM)に基づく自動音声認識(ASR)システムにおける2つの課題について述べる。
The public English Librispeech and Mandarin AISHELL-1 datas showed that PAC: (1) reduces relative Word Error Rate (WER) by 30.2% and 53.8% compared to pre-trained ASR model, (2) achieves 31.8% and 60.5% relative reductions of biased WER for long-tail words。
- 参考スコア(独自算出の注目度): 20.121140251177145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a Pronunciation-Aware Contextualized (PAC) framework to address two key challenges in Large Language Model (LLM)-based Automatic Speech Recognition (ASR) systems: effective pronunciation modeling and robust homophone discrimination. Both are essential for raw or long-tail word recognition. The proposed approach adopts a two-stage learning paradigm. First, we introduce a pronunciation-guided context learning method. It employs an interleaved grapheme-phoneme context modeling strategy that incorporates grapheme-only distractors, encouraging the model to leverage phonemic cues for accurate recognition. Then, we propose a pronunciation-discriminative reinforcement learning method with perturbed label sampling to further enhance the model\'s ability to distinguish contextualized homophones. Experimental results on the public English Librispeech and Mandarin AISHELL-1 datasets indicate that PAC: (1) reduces relative Word Error Rate (WER) by 30.2% and 53.8% compared to pre-trained LLM-based ASR models, and (2) achieves 31.8% and 60.5% relative reductions in biased WER for long-tail words compared to strong baselines, respectively.
- Abstract(参考訳): 本稿では,Large Language Model (LLM) に基づく自動音声認識 (ASR) システムにおける2つの課題に対処する,発音認識型文脈認識 (PAC) フレームワークを提案する。
どちらも、生または長い尾の単語認識に必須である。
提案手法は2段階学習パラダイムを採用する。
まず,発音誘導型文脈学習手法を提案する。
グラフのみのイントラクタを組み込んだインターリーブなグラファイム・音素コンテキストモデリング戦略を採用しており、正確な認識のために音素の手がかりを活用するようモデルに促している。
そこで,本研究では,文脈に適応したホモフォンの識別能力をさらに向上させるため,摂動ラベルサンプリングを用いた発音識別型強化学習手法を提案する。
The public English Librispeech and Mandarin AISHELL-1 datas showed that PAC: (1) reduces relative Word Error Rate (WER) compared than pre-trained LLM-based ASR models, (2) achieves 31.8% and 60.5% relative reductions for long-tail words than strong baseline。
関連論文リスト
- Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models [19.864555505996112]
本研究では,文脈パラ言語情報をモデル学習に組み込む2つの手法を提案する。
我々の暗黙的手法は、人間の注釈付きQAベンチマークでパフォーマンス(LLM-judged)を38.41%向上させ、明示的なアプローチと組み合わせると46.02%に達した。
論文 参考訳(メタデータ) (2025-08-10T10:03:30Z) - Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation [12.39451124683428]
本稿では,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。
多言語事前学習S2Pモデルに基づいて,ポーランド語とインドネシア語でクロスリンガル実験を行った。
10分間しか音素の監督を行ない、新しい手法であるJSA-SPGは5%の誤り率の低減を実現した。
論文 参考訳(メタデータ) (2025-07-04T12:23:22Z) - Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation [4.314729314139958]
音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。
音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。
提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
論文 参考訳(メタデータ) (2025-06-09T11:10:24Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。