論文の概要: Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search
- arxiv url: http://arxiv.org/abs/2401.10449v1
- Date: Fri, 19 Jan 2024 01:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 17:08:04.366234
- Title: Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search
- Title(参考訳): 注意に基づくバイアスフレーズ強調ビーム検索による文脈別自動音声認識
- Authors: Yui Sudo, Muhammad Shakeel, Yosuke Fukumoto, Yifan Peng, Shinji
Watanabe
- Abstract要約: 本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
- 参考スコア(独自算出の注目度): 44.94458898538114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) automatic speech recognition (ASR) methods exhibit
remarkable performance. However, since the performance of such methods is
intrinsically linked to the context present in the training data, E2E-ASR
methods do not perform as desired for unseen user contexts (e.g., technical
terms, personal names, and playlists). Thus, E2E-ASR methods must be easily
contextualized by the user or developer. This paper proposes an attention-based
contextual biasing method that can be customized using an editable phrase list
(referred to as a bias list). The proposed method can be trained effectively by
combining a bias phrase index loss and special tokens to detect the bias
phrases in the input speech data. In addition, to improve the contextualization
performance during inference further, we propose a bias phrase boosted (BPB)
beam search algorithm based on the bias phrase index probability. Experimental
results demonstrate that the proposed method consistently improves the word
error rate and the character error rate of the target phrases in the bias list
on both the Librispeech-960 (English) and our in-house (Japanese) dataset,
respectively.
- Abstract(参考訳): エンドツーエンド (E2E) 自動音声認識 (ASR) 手法は優れた性能を示す。
しかし、そのような手法の性能はトレーニングデータに存在するコンテキストと本質的に関連しているため、E2E-ASR法は見当たらないユーザコンテキスト(技術的用語、個人名、プレイリストなど)に対して望ましくは機能しない。
したがって、E2E-ASRメソッドは、ユーザまたは開発者によって簡単にコンテキスト化されなければならない。
本稿では,編集可能な句リスト(バイアスリストと呼ぶ)を用いてカスタマイズ可能な注意に基づく文脈バイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
さらに,推定中の文脈化性能を向上させるために,バイアスフレーズインデックス確率に基づくバイアスフレーズ強調(bpb)ビーム探索アルゴリズムを提案する。
実験結果から,提案手法は,Lbrispeech-960(英語)と社内(日本語)データセットのバイアスリストにおいて,単語誤り率とターゲット句の文字誤り率を一貫して改善することを示した。
関連論文リスト
- XCB: an effective contextual biasing approach to bias cross-lingual phrases in speech recognition [9.03519622415822]
本研究では,言語間コンテキストバイアス(XCB)モジュールを提案する。
我々は、補助言語バイアスモジュールと言語固有の損失を統合することで、支配言語のための事前訓練されたASRモデルを強化する。
社内のコードスイッチングデータセットで行った実験結果から,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-08-20T04:00:19Z) - Contextualized Automatic Speech Recognition with Dynamic Vocabulary [41.892863381787684]
本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。
バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。
実験の結果,提案手法は英語と日本語のデータセットにおけるバイアスフレーズWERを3.1~4.9ポイント改善することがわかった。
論文 参考訳(メタデータ) (2024-05-22T05:03:39Z) - Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm [45.42075576656938]
文脈バイアスとは、音声認識システムを希少な実体に偏り付ける問題を指す。
パターンマッチングのためのKnuth-Morris-Prattアルゴリズムに基づく文脈バイアスのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T22:50:10Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。