論文の概要: OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary
- arxiv url: http://arxiv.org/abs/2506.09448v1
- Date: Wed, 11 Jun 2025 06:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.656994
- Title: OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary
- Title(参考訳): OWSM-Biasing:動的語彙を用いた音声認識のためのオープンウィスパースタイル音声モデルの文脈化
- Authors: Yui Sudo, Yusuke Fujita, Atsushi Kojima, Tomoya Mizumoto, Lianbo Liu,
- Abstract要約: 本稿では、既存の文脈バイアス法とOpen Whisper-Style Speech Models (OWSM) v3.1を統合し、事前学習したパラメータを凍結する。
実験の結果,提案手法は偏りの単語誤り率(B-WER)を11.6ポイント改善することがわかった。
- 参考スコア(独自算出の注目度): 8.171886468845049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech foundation models (SFMs), such as Open Whisper-Style Speech Models (OWSM), are trained on massive datasets to achieve accurate automatic speech recognition. However, even SFMs struggle to accurately recognize rare and unseen words. While contextual biasing (CB) is a promising approach to improve recognition of such words, most CB methods are trained from scratch, resulting in lower performance than SFMs due to the lack of pre-trained knowledge. This paper integrates an existing CB method with OWSM v3.1 while freezing its pre-trained parameters. By leveraging the knowledge embedded in SFMs, the proposed method enables effective CB while preserving the advantages of SFMs, even with a small dataset. Experimental results show that the proposed method improves the biasing word error rate (B-WER) by 11.6 points, resulting in a 0.9 point improvement in the overall WER while reducing the real-time factor by 7.5% compared to the non-biasing baseline on the LibriSpeech 100 test-clean set.
- Abstract(参考訳): Open Whisper-Style Speech Models (OWSM)のような音声基礎モデル(SFM)は、高精度な自動音声認識を実現するために大量のデータセットで訓練される。
しかし、SFMでさえ、稀で目に見えない単語を正確に認識するのに苦労している。
文脈偏見(CB)はそのような単語の認識を改善するための有望な手法であるが、ほとんどのCB手法はスクラッチから訓練され、事前訓練された知識の欠如によりSFMよりも性能が低下する。
本稿では,既存のCB法をOWSM v3.1と統合し,事前学習したパラメータを凍結する。
提案手法は,SFMに埋め込まれた知識を活用することで,小さなデータセットであっても,SFMの利点を保ちながら効果的なCBを実現する。
実験結果から,提案手法は偏り単語誤り率(B-WER)を11.6ポイント改善し,その結果WER全体の0.9ポイント改善を実現し,実時間係数を,LibriSpeech 100テストクリーンセットの非偏りベースラインと比較して7.5%低減した。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Speech foundation models on intelligibility prediction for
hearing-impaired listeners [4.742307809368852]
音声基礎モデル(SFM)は、多くの音声処理タスクでベンチマークされている。
本稿では,10個のSFMの体系的評価を行い,その1つの応用について述べる。
そこで本研究では,凍結したSFM上で特別な予測ヘッドを学習し,この問題に対処する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-01-24T18:26:52Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - A Method to Reveal Speaker Identity in Distributed ASR Training, and How
to Counter It [3.18475216176047]
学習発話の話者の同一性を明らかにするための第1の手法を,勾配のみへのアクセスで設計する。
我々は、LibriSpeechデータセット上で34%のトップ1精度(51%のトップ5精度)で話者の身元を明らかにすることができることを示した。
論文 参考訳(メタデータ) (2021-04-15T23:15:12Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。