論文の概要: Pushing the Limits of Beam Search Decoding for Transducer-based ASR models
- arxiv url: http://arxiv.org/abs/2506.00185v1
- Date: Fri, 30 May 2025 19:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.487481
- Title: Pushing the Limits of Beam Search Decoding for Transducer-based ASR models
- Title(参考訳): トランスデューサを用いたASRモデルにおけるビームサーチデコーディングの限界を押し上げる
- Authors: Lilit Grigoryan, Vladimir Bataev, Andrei Andrusenko, Hainan Xu, Vitaly Lavrukhin, Boris Ginsburg,
- Abstract要約: ビームサーチはキーネットワークコンポーネントの繰り返し評価によりトランスデューサを著しく遅くする。
本稿では,トランスデューサのビームサーチを高速化する汎用手法を提案し,ALSD++とAES++の2つの最適化アルゴリズムを実装した。
- 参考スコア(独自算出の注目度): 18.41716157723428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transducer models have emerged as a promising choice for end-to-end ASR systems, offering a balanced trade-off between recognition accuracy, streaming capabilities, and inference speed in greedy decoding. However, beam search significantly slows down Transducers due to repeated evaluations of key network components, limiting practical applications. This paper introduces a universal method to accelerate beam search for Transducers, enabling the implementation of two optimized algorithms: ALSD++ and AES++. The proposed method utilizes batch operations, a tree-based hypothesis structure, novel blank scoring for enhanced shallow fusion, and CUDA graph execution for efficient GPU inference. This narrows the speed gap between beam and greedy modes to only 10-20% for the whole system, achieves 14-30% relative improvement in WER compared to greedy decoding, and improves shallow fusion for low-resource up to 11% compared to existing implementations. All the algorithms are open sourced.
- Abstract(参考訳): Transducerモデルは、認識精度、ストリーミング能力、およびgreedy復号における推論速度のバランスのとれたトレードオフを提供する、エンドツーエンドのASRシステムにとって有望な選択肢として登場した。
しかし、ビームサーチはキーネットワークコンポーネントの繰り返し評価によりトランスデューサを著しく遅くし、実用的な応用が制限される。
本稿では,トランスデューサのビームサーチを高速化する汎用手法を提案し,ALSD++とAES++の2つの最適化アルゴリズムを実装した。
提案手法は, バッチ処理, 木に基づく仮説構造, 改良された浅層融合のための新しい空白スコアリング, 効率的なGPU推論のためのCUDAグラフ実行を利用する。
これにより、ビームとグリーディモードの速度ギャップはシステム全体の10-20%に狭まり、グリーディデコーディングと比較してWERの14-30%の相対的な改善を実現し、既存の実装に比べて11%の低リソースでの浅い融合を改善する。
すべてのアルゴリズムはオープンソースである。
関連論文リスト
- Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。
本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。
この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文 参考訳(メタデータ) (2025-05-24T15:52:49Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - Sparsity-Constraint Optimization via Splicing Iteration [1.3622424109977902]
我々は sPlicing itEration (SCOPE) を用いたスペーサリティ制約最適化アルゴリズムを開発した。
SCOPEはパラメータをチューニングせずに効率的に収束する。
SCOPEを用いて2次最適化を解き、スパース分類器を学習し、バイナリ変数のスパースマルコフネットワークを復元する。
C++実装に基づいたオープンソースのPythonパッケージskscopeがGitHubで公開されている。
論文 参考訳(メタデータ) (2024-06-17T18:34:51Z) - Label-Looping: Highly Efficient Decoding for Transducers [19.091932566833265]
本稿では,トランスデューサに基づく音声認識モデルのための,高効率なグリーディ復号アルゴリズムを提案する。
実験の結果,ラベルループアルゴリズムはバッチサイズ32を使用する場合,従来のバッチデコードよりも最大2.0倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-06-10T12:34:38Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification [3.3711251611130337]
エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。
その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
論文 参考訳(メタデータ) (2021-01-07T18:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。