論文の概要: Incorporating Error Level Noise Embedding for Improving LLM-Assisted Robustness in Persian Speech Recognition
- arxiv url: http://arxiv.org/abs/2512.17247v1
- Date: Fri, 19 Dec 2025 05:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.252333
- Title: Incorporating Error Level Noise Embedding for Improving LLM-Assisted Robustness in Persian Speech Recognition
- Title(参考訳): ペルシャ音声認識におけるLLM支援ロバスト性向上のための誤りレベルの組込み
- Authors: Zahra Rahmani, Hossein Sameti,
- Abstract要約: 本研究では,複数の仮説と雑音認識モデルを組み合わせた頑健な雑音感受性ASR誤差補正フレームワークを提案する。
雑音の多いペルシャ語を用いて、修正されたWhisper-largeデコーダから5-best仮説を生成する。
実験結果から, ELN条件付きモデルは単語誤り率(WER)を大幅に低減できることが示された。
- 参考スコア(独自算出の注目度): 1.3607388598209322
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems suffer significant performance degradation in noisy environments, a challenge that is especially severe for low-resource languages such as Persian. Even state-of-the-art models such as Whisper struggle to maintain accuracy under varying signal-to-noise ratios (SNRs). This study presents a robust noise-sensitive ASR error correction framework that combines multiple hypotheses and noise-aware modeling. Using noisy Persian speech, we generate 5-best hypotheses from a modified Whisper-large decoder. Error Level Noise (ELN) is introduced as a representation that captures semantic- and token-level disagreement across hypotheses, quantifying the linguistic distortions caused by noise. ELN thus provides a direct measure of noise-induced uncertainty, enabling the LLM to reason about the reliability of each hypothesis during correction. Three models are evaluated: (1) a base LLaMA-2-7B model without fine-tuning, (2) a fine-tuned variant trained on text-only hypotheses, and (3) a noise-conditioned model integrating ELN embeddings at both sentence and word levels. Experimental results demonstrate that the ELN-conditioned model achieves substantial reductions in Word Error Rate (WER). Specifically, on the challenging Mixed Noise test set, the proposed Fine-tuned + ELN (Ours) model reduces the WER from a baseline of 31.10\% (Raw Whisper) to 24.84\%, significantly surpassing the Fine-tuned (No ELN) text-only baseline of 30.79\%, whereas the original LLaMA-2-7B model increased the WER to 64.58\%, demonstrating that it is unable to correct Persian errors on its own. This confirms the effectiveness of combining multiple hypotheses with noise-aware embeddings for robust Persian ASR in noisy real-world scenarios.
- Abstract(参考訳): ASR(Automatic Speech Recognition)システムは、特にペルシア語のような低リソース言語では、ノイズの多い環境での大幅な性能低下に悩まされる。
Whisperのような最先端モデルでさえ、信号対雑音比(SNR)の異なる精度を維持するのに苦労している。
本研究では,複数の仮説と雑音認識モデルを組み合わせた頑健な雑音感受性ASR誤差補正フレームワークを提案する。
雑音の多いペルシャ語を用いて、修正されたWhisper-largeデコーダから5-best仮説を生成する。
誤りレベルノイズ(ELN)は、仮説間の意味的およびトークンレベルの不一致を捉え、ノイズに起因する言語的歪みを定量化する表現として導入された。
したがって、ELNはノイズによる不確実性を直接測定し、LLMは修正中の各仮説の信頼性を判断することができる。
1) 微調整のないベースLLaMA-2-7Bモデル,(2) テキストのみの仮説に基づく微調整モデル,(3) ELN埋め込みを文レベルと単語レベルで統合したノイズ条件付きモデル,の3つのモデルを評価する。
実験の結果,ELN条件付きモデルはワード誤り率(WER)を大幅に低下させることがわかった。
具体的には、挑戦的な混合ノイズテストセットにおいて、提案されたFine-tuned + ELN (Ours)モデルはWERを31.10\% (Raw Whisper) のベースラインから24.84\%に減らし、Fine-tuned (No ELN) のテキストのみのベースラインを30.79\%に大きく上回った。
これは、雑音の多い現実のシナリオにおいて、ロバストなペルシャASRに対して、複数の仮説とノイズ認識の埋め込みを組み合わせることの有効性を確認する。
関連論文リスト
- Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models [1.0579965347526206]
大規模言語モデル(LLM)は、しばしば不正確な、または誤解を招くコンテンツ・ハロシンを生成する。
noise-Augmented Fine-Tuning (NoiseFiT) は適応ノイズ注入を利用してモデルロバスト性を高める新しいフレームワークである。
NoiseFiTは、動的にスケールしたガウス雑音を用いて、高SNR(より堅牢)または低SNR(潜在的に過正規化)と同定された層を選択的に摂動する。
論文 参考訳(メタデータ) (2025-04-04T09:27:19Z) - Certified PEFTSmoothing: Parameter-Efficient Fine-Tuning with Randomized Smoothing [6.86204821852287]
ランダム化平滑化は,l2-ノルムの対向摂動に対して,ディープラーニングモデルの頑健性にアクセスするための主要な確証付き頑健性手法である。
広く採用されることを制限する顕著な制約は、ベースモデルをスクラッチからリトレーニングし、堅牢なバージョンを得る必要があることである。
これは、ベースモデルがノイズの増大したデータ分布を学習し、正確な投票を行うのに失敗するためである。
近年の大規模モデルトレーニングに触発されて,ベースモデルに適応して雑音付加データを学ぶために,PEFTSmoothingという別の手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T09:38:22Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。