論文の概要: TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree
- arxiv url: http://arxiv.org/abs/2508.07014v1
- Date: Sat, 09 Aug 2025 15:27:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.653498
- Title: TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree
- Title(参考訳): TurboBias: GPUアクセラレーションされたPhrase-Boostingツリーを利用したユニバーサルASRコンテキストバイアス
- Authors: Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg,
- Abstract要約: 本稿では,自動音声認識(ASR)のための普遍的文脈バイアスフレームワークを提案する。
このフレームワークはGPUアクセラレーションされたワードブースティングツリーに基づいており、グレディやビームサーチの復号のために浅い融合モードで使用することができる。
その結果,提案手法の効率性が高く,オープンソースの文脈バイアス手法を超越した結果を得た。
- 参考スコア(独自算出の注目度): 17.16475665648591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing specific key phrases is an essential task for contextualized Automatic Speech Recognition (ASR). However, most existing context-biasing approaches have limitations associated with the necessity of additional model training, significantly slow down the decoding process, or constrain the choice of the ASR system type. This paper proposes a universal ASR context-biasing framework that supports all major types: CTC, Transducers, and Attention Encoder-Decoder models. The framework is based on a GPU-accelerated word boosting tree, which enables it to be used in shallow fusion mode for greedy and beam search decoding without noticeable speed degradation, even with a vast number of key phrases (up to 20K items). The obtained results showed high efficiency of the proposed method, surpassing the considered open-source context-biasing approaches in accuracy and decoding speed. Our context-biasing framework is open-sourced as a part of the NeMo toolkit.
- Abstract(参考訳): 特定のキーフレーズを認識することは、文脈的自動音声認識(ASR)に不可欠なタスクである。
しかし、既存のコンテキストバイアスアプローチの多くは、追加のモデルトレーニングの必要性、復号プロセスの大幅な遅延、ASRシステムタイプの選択の制限といった制限がある。
本稿では,CTC,Transducer,Attention Encoder-Decoderモデルなど,すべての主要なタイプをサポートする汎用的なASRコンテキストバイアスフレームワークを提案する。
このフレームワークはGPUアクセラレーションされたワードブースティングツリーをベースにしており、多数のキーフレーズ(最大20K項目まで)を伴っても、目立った速度劣化を伴わずに、グレディとビームサーチデコーディングのための浅い融合モードで使用することができる。
その結果,提案手法の精度と復号化速度において,オープンソースの文脈バイアス手法を超越して高い効率性を示した。
私たちのコンテキストバイアスフレームワークはNeMoツールキットの一部としてオープンソース化されています。
関連論文リスト
- Pushing the Limits of Beam Search Decoding for Transducer-based ASR models [18.41716157723428]
ビームサーチはキーネットワークコンポーネントの繰り返し評価によりトランスデューサを著しく遅くする。
本稿では,トランスデューサのビームサーチを高速化する汎用手法を提案し,ALSD++とAES++の2つの最適化アルゴリズムを実装した。
論文 参考訳(メタデータ) (2025-05-30T19:42:48Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文 参考訳(メタデータ) (2021-09-01T21:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。