論文の概要: GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech
Recognition
- arxiv url: http://arxiv.org/abs/2311.04996v1
- Date: Wed, 8 Nov 2023 19:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:57:10.779725
- Title: GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech
Recognition
- Title(参考訳): CTC音声認識のためのGPU高速化WFSTビーム探索デコーダ
- Authors: Daniel Galvez and Tim Kaldewey
- Abstract要約: Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。
我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。
パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
- 参考スコア(独自算出の注目度): 1.2680687621338012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Connectionist Temporal Classification (CTC) models deliver
state-of-the-art accuracy in automated speech recognition (ASR) pipelines,
their performance has been limited by CPU-based beam search decoding. We
introduce a GPU-accelerated Weighted Finite State Transducer (WFST) beam search
decoder compatible with current CTC models. It increases pipeline throughput
and decreases latency, supports streaming inference, and also supports advanced
features like utterance-specific word boosting via on-the-fly composition. We
provide pre-built DLPack-based python bindings for ease of use with
Python-based machine learning frameworks at
https://github.com/nvidia-riva/riva-asrlib-decoder. We evaluated our decoder
for offline and online scenarios, demonstrating that it is the fastest beam
search decoder for CTC models. In the offline scenario it achieves up to 7
times more throughput than the current state-of-the-art CPU decoder and in the
online streaming scenario, it achieves nearly 8 times lower latency, with same
or better word error rate.
- Abstract(参考訳): Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供するが、その性能はCPUベースのビームサーチデコーディングによって制限されている。
我々は、現在のCTCモデルと互換性のある、GPUによる重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを提案する。
パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
我々は、pythonベースの機械学習フレームワークで使いやすいように、ビルド済みのdlpackベースのpythonバインディングをhttps://github.com/nvidia-riva/riva-asrlib-decoderで提供する。
オフラインシナリオとオンラインシナリオのデコーダを評価し,ctcモデルの高速なビーム検索デコーダであることを実証した。
オフラインのシナリオでは、現在の最先端cpuデコーダの最大7倍のスループットを実現し、オンラインのストリーミングシナリオでは、ワードエラーレートが同じかそれ以上の8倍近いレイテンシを実現している。
関連論文リスト
- Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Towards Real-Time Neural Video Codec for Cross-Platform Application
Using Calibration Information [17.141950680993617]
浮動小数点演算によるクロスプラットフォームの計算誤差は、ビットストリームの不正確な復号につながる可能性がある。
符号化と復号処理の計算複雑性が高いことは、リアルタイムのパフォーマンスを達成する上での課題である。
リアルタイムクロスプラットフォームのニューラルビデオは、コンシューマグレードのGPU上で、他のエンコーディングプラットフォームから720Pビデオのビットストリームを効率的に復号することができる。
論文 参考訳(メタデータ) (2023-09-20T13:01:15Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。
また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文 参考訳(メタデータ) (2022-10-31T07:46:10Z) - Blank Collapse: Compressing CTC emission for the faster decoding [0.30108936184913293]
本稿では,ビーム探索復号速度を高速化する計算量を削減する手法を提案する。
この手法により、通常のビームサーチ復号よりも最大78%高速な復号化が可能となる。
論文 参考訳(メタデータ) (2022-10-31T02:12:51Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Streaming parallel transducer beam search with fast-slow cascaded
encoders [23.416682253435837]
RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。
高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T17:29:39Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。