論文の概要: Confidence-Guided Error Correction for Disordered Speech Recognition
- arxiv url: http://arxiv.org/abs/2509.25048v1
- Date: Mon, 29 Sep 2025 17:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.147081
- Title: Confidence-Guided Error Correction for Disordered Speech Recognition
- Title(参考訳): 障害音声認識における信頼誘導誤り訂正法
- Authors: Abner Hernandez, Tomás Arias Vergara, Andreas Maier, Paula Andrea Pérez-Toro,
- Abstract要約: 音声認識のための後処理モジュールとしての大規模言語モデル(LLM)について検討する。
話者とデータセット間のロバスト性や一般化を改善するために,単語レベルの不確実性推定を直接LLMトレーニングに組み込む信頼性インフォームドプロンプトを提案する。
我々はLLaMA 3.1モデルを微調整し、我々のアプローチを転写のみの微調整とポストホック信頼に基づくフィルタリングと比較する。
- 参考スコア(独自算出の注目度): 10.275737387265321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the use of large language models (LLMs) as post-processing modules for automatic speech recognition (ASR), focusing on their ability to perform error correction for disordered speech. In particular, we propose confidence-informed prompting, where word-level uncertainty estimates are embedded directly into LLM training to improve robustness and generalization across speakers and datasets. This approach directs the model to uncertain ASR regions and reduces overcorrection. We fine-tune a LLaMA 3.1 model and compare our approach to both transcript-only fine-tuning and post hoc confidence-based filtering. Evaluations show that our method achieves a 10% relative WER reduction compared to naive LLM correction on the Speech Accessibility Project spontaneous speech and a 47% reduction on TORGO, demonstrating the effectiveness of confidence-aware fine-tuning for impaired speech.
- Abstract(参考訳): 自動音声認識(ASR)のための後処理モジュールとして大規模言語モデル(LLM)を用いることを検討した。
特に,単語レベルの不確実性推定をLLMトレーニングに直接組み込むことで,話者やデータセット間の堅牢性や一般化を向上する信頼性インフォームドプロンプトを提案する。
このアプローチは、モデルを不確実なASR領域に誘導し、過補正を減らす。
我々はLLaMA 3.1モデルを微調整し、我々のアプローチを転写のみの微調整とポストホック信頼に基づくフィルタリングと比較する。
評価の結果,本手法は音声アクセシビリティプロジェクトの自発音声におけるNive LLM補正に比べて10%の相対的なWER削減を実現し,TORGOの47%の削減を実現し,障害音声に対する信頼性を考慮した微調整の有効性を示した。
関連論文リスト
- DRES: Benchmarking LLMs for Disfluency Removal [27.083825614818135]
um"、"uh"、インタージェクション、括弧、編集されたステートメントなどの分散は、音声駆動システムにおいて永続的な課題である。
制御されたテキストレベルのベンチマークである拡散除去評価スイートは、このタスクに対して再現可能なセマンティックアッパーバウンドを確立する。
DRESは、人間の注釈付きSwitchboard transcriptの上に構築され、ASRエラーからの拡散除去と音響的変動を分離する。
論文 参考訳(メタデータ) (2025-09-24T17:08:12Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。