Fugu-MT 論文翻訳(概要): NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding

論文の概要: NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding

arxiv url: http://arxiv.org/abs/2505.22857v1
Date: Wed, 28 May 2025 20:43:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.533659
Title: NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding
Title（参考訳）: NGPU-LM: Greedy ASRデコードにおけるコンテキストバイアスのためのGPU加速N-Gram言語モデル
Authors: Vladimir Bataev, Andrei Andrusenko, Lilit Grigoryan, Aleksandr Laptev, Vitaly Lavrukhin, Boris Ginsburg,
Abstract要約: この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
参考スコア（独自算出の注目度）: 54.88765757043535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Statistical n-gram language models are widely used for context-biasing tasks in Automatic Speech Recognition (ASR). However, existing implementations lack computational efficiency due to poor parallelization, making context-biasing less appealing for industrial use. This work rethinks data structures for statistical n-gram language models to enable fast and parallel operations for GPU-optimized inference. Our approach, named NGPU-LM, introduces customizable greedy decoding for all major ASR model types - including transducers, attention encoder-decoder models, and CTC - with less than 7% computational overhead. The proposed approach can eliminate more than 50% of the accuracy gap between greedy and beam search for out-of-domain scenarios while avoiding significant slowdown caused by beam search. The implementation of the proposed NGPU-LM is open-sourced.
Abstract（参考訳）: 統計的n-gram言語モデルは、自動音声認識(ASR)における文脈バイアスタスクに広く用いられている。しかし、既存の実装では並列化が貧弱なため計算効率が欠けており、コンテキストバイアスは産業用途にはあまり魅力的ではない。この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。 NGPU-LMと呼ばれるこのアプローチでは、トランスデューサ、アテンションエンコーダデコーダモデル、CTCなど、主要なASRモデルタイプすべてに対して、7%未満の計算オーバーヘッドでカスタマイズ可能なgreedyデコーディングを導入しています。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。 NGPU-LMの実装はオープンソースである。

関連論文リスト

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
GPU-Accelerated Loopy Belief Propagation for Program Analysis [3.516434517865342]
本稿では,プログラム解析のためのGPU高速化LPPアルゴリズムを提案する。本稿では,依存関係解析アルゴリズムとともに,任意のユーザ定義更新戦略を指定する統一表現を提案する。当社のアプローチでは,最先端のシーケンシャルアプローチよりも平均2.14タイム,最先端のGPUベースのアプローチよりも5.56タイムのスピードアップを実現している。
論文参考訳（メタデータ） (2025-09-26T13:30:30Z)
TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree [17.16475665648591]
本稿では,自動音声認識(ASR)のための普遍的文脈バイアスフレームワークを提案する。このフレームワークはGPUアクセラレーションされたワードブースティングツリーに基づいており、グレディやビームサーチの復号のために浅い融合モードで使用することができる。その結果,提案手法の効率性が高く,オープンソースの文脈バイアス手法を超越した結果を得た。
論文参考訳（メタデータ） (2025-08-09T15:27:07Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文参考訳（メタデータ） (2023-10-30T02:04:20Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Hector: An Efficient Programming and Compilation Framework for Implementing Relational Graph Neural Networks in GPU Architectures [24.841128441671234]
RGNNは、異種グラフ内の異なるタイプのノードとエッジをモデリングするための専用の構造を持つグラフニューラルネットワークである。本稿では,新しい2レベル中間表現とコード生成フレームワークであるHectorを提案し,RGNNモデルの鍵となる特性を捉える。 Hectorは、最先端のパブリックシステムと比較して、推論で最大9.9倍、トレーニングで最大43.7倍のスピードアップを達成する。
論文参考訳（メタデータ） (2023-01-16T06:53:18Z)
Communication-Efficient TeraByte-Scale Model Training Framework for Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文参考訳（メタデータ） (2022-01-05T18:09:11Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Applying GPGPU to Recurrent Neural Network Language Model based Fast Network Search in the Real-Time LVCSR [5.0555627833288]
リカレントニューラルネットワーク言語モデル (RNNLM) は音声認識の様々な分野で使われ始めている。 RNNLMの計算複雑性は、RNNLMをリアルタイムな大語彙連続音声認識に適用する上でハードルとなっている。
論文参考訳（メタデータ） (2020-07-23T05:15:14Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。