Fugu-MT 論文翻訳(概要): GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition

論文の概要: GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition

arxiv url: http://arxiv.org/abs/2311.04996v1
Date: Wed, 8 Nov 2023 19:57:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 16:57:10.779725
Title: GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition
Title（参考訳）: CTC音声認識のためのGPU高速化WFSTビーム探索デコーダ
Authors: Daniel Galvez and Tim Kaldewey
Abstract要約: Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
参考スコア（独自算出の注目度）: 1.2680687621338012
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Connectionist Temporal Classification (CTC) models deliver state-of-the-art accuracy in automated speech recognition (ASR) pipelines, their performance has been limited by CPU-based beam search decoding. We introduce a GPU-accelerated Weighted Finite State Transducer (WFST) beam search decoder compatible with current CTC models. It increases pipeline throughput and decreases latency, supports streaming inference, and also supports advanced features like utterance-specific word boosting via on-the-fly composition. We provide pre-built DLPack-based python bindings for ease of use with Python-based machine learning frameworks at https://github.com/nvidia-riva/riva-asrlib-decoder. We evaluated our decoder for offline and online scenarios, demonstrating that it is the fastest beam search decoder for CTC models. In the offline scenario it achieves up to 7 times more throughput than the current state-of-the-art CPU decoder and in the online streaming scenario, it achieves nearly 8 times lower latency, with same or better word error rate.
Abstract（参考訳）: Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供するが、その性能はCPUベースのビームサーチデコーディングによって制限されている。我々は、現在のCTCモデルと互換性のある、GPUによる重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを提案する。パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。我々は、pythonベースの機械学習フレームワークで使いやすいように、ビルド済みのdlpackベースのpythonバインディングをhttps://github.com/nvidia-riva/riva-asrlib-decoderで提供する。オフラインシナリオとオンラインシナリオのデコーダを評価し,ctcモデルの高速なビーム検索デコーダであることを実証した。オフラインのシナリオでは、現在の最先端cpuデコーダの最大7倍のスループットを実現し、オンラインのストリーミングシナリオでは、ワードエラーレートが同じかそれ以上の8倍近いレイテンシを実現している。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-03-29T15:07:21Z)
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。 CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文参考訳（メタデータ） (2023-12-27T21:04:26Z)
Towards Real-Time Neural Video Codec for Cross-Platform Application Using Calibration Information [17.141950680993617]
浮動小数点演算によるクロスプラットフォームの計算誤差は、ビットストリームの不正確な復号につながる可能性がある。符号化と復号処理の計算複雑性が高いことは、リアルタイムのパフォーマンスを達成する上での課題である。リアルタイムクロスプラットフォームのニューラルビデオは、コンシューマグレードのGPU上で、他のエンコーディングプラットフォームから720Pビデオのビットストリームを効率的に復号することができる。
論文参考訳（メタデータ） (2023-09-20T13:01:15Z)
Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文参考訳（メタデータ） (2023-05-22T07:47:27Z)
Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文参考訳（メタデータ） (2022-10-31T07:46:10Z)
Blank Collapse: Compressing CTC emission for the faster decoding [0.30108936184913293]
本稿では,ビーム探索復号速度を高速化する計算量を削減する手法を提案する。この手法により、通常のビームサーチ復号よりも最大78%高速な復号化が可能となる。
論文参考訳（メタデータ） (2022-10-31T02:12:51Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Streaming parallel transducer beam search with fast-slow cascaded encoders [23.416682253435837]
RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-29T17:29:39Z)
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文参考訳（メタデータ） (2021-09-27T05:21:30Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Learning for Video Compression with Recurrent Auto-Encoder and Recurrent Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。 RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文参考訳（メタデータ） (2020-06-24T08:46:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。