論文の概要: A Neural Model for Contextual Biasing Score Learning and Filtering
- arxiv url: http://arxiv.org/abs/2510.23849v1
- Date: Mon, 27 Oct 2025 20:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.512939
- Title: A Neural Model for Contextual Biasing Score Learning and Filtering
- Title(参考訳): 文脈バイアスによるスコア学習とフィルタリングのためのニューラルモデル
- Authors: Wanting Huang, Weiran Wang,
- Abstract要約: ASRエンコーダから抽出された音響情報に基づいて,アテンションに基づくバイアスデコーダを用いて候補句のスコアを生成する。
本研究では, 乱れを抑えつつ, 接地句の高得点を奨励する, 単語ごとの識別目標を提案する。
我々の手法はモジュラーであり、任意のASRシステムで使用することができ、フィルタ機構は他のバイアス法の性能を高める可能性がある。
- 参考スコア(独自算出の注目度): 11.862176451777286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual biasing improves automatic speech recognition (ASR) by integrating external knowledge, such as user-specific phrases or entities, during decoding. In this work, we use an attention-based biasing decoder to produce scores for candidate phrases based on acoustic information extracted by an ASR encoder, which can be used to filter out unlikely phrases and to calculate bonus for shallow-fusion biasing. We introduce a per-token discriminative objective that encourages higher scores for ground-truth phrases while suppressing distractors. Experiments on the Librispeech biasing benchmark show that our method effectively filters out majority of the candidate phrases, and significantly improves recognition accuracy under different biasing conditions when the scores are used in shallow fusion biasing. Our approach is modular and can be used with any ASR system, and the filtering mechanism can potentially boost performance of other biasing methods.
- Abstract(参考訳): 文脈バイアスは、デコード中にユーザ固有のフレーズやエンティティなどの外部知識を統合することにより、自動音声認識(ASR)を改善する。
本研究では,ASRエンコーダが抽出した音響情報に基づいて,アテンションベースの偏差デコーダを用いて候補句のスコアを生成する。
本研究では, 乱れを抑えつつ, 接地句の高得点を奨励する, 単語ごとの識別目標を提案する。
Librispeech バイアスベンチマーク実験により,提案手法は候補句の大部分を効果的にフィルタリングし,浅層融合バイアスにおいてスコアが使用される場合,異なるバイアス条件下での認識精度を著しく向上することが示された。
我々の手法はモジュラーであり、任意のASRシステムで使用することができ、フィルタ機構は他のバイアス法の性能を高める可能性がある。
関連論文リスト
- Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning [55.41070713054046]
非バイアススライスされたWasserstein RBFカーネルを導入し、時間相似性スコアを開発する。
また、未バイアススライスされたWassersteinカーネルに基づくオーディオキャプションフレームワークも導入する。
論文 参考訳(メタデータ) (2025-02-08T03:47:06Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Power of Explanations: Towards automatic debiasing in hate speech
detection [19.26084350822197]
ヘイトスピーチ検出は、自然言語処理(NLP)の現実世界における一般的なダウンストリームアプリケーションである。
本稿では,潜在的なバイアスを検出するための説明手法を頼りに,自動誤用検知(MiD)を提案する。
論文 参考訳(メタデータ) (2022-09-07T14:14:03Z) - Filter-based Discriminative Autoencoders for Children Speech Recognition [25.279902171523233]
音響モデルのためのフィルタに基づく識別オートエンコーダを提案する。
訓練段階では、デコーダは補助情報とエンコーダによって抽出された音素埋め込みを用いる。
このフレームワークは、より正確なセノン(三声-状態)スコアを得るために、音素の埋め込みをより高めることができる。
論文 参考訳(メタデータ) (2022-04-01T02:18:57Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。