論文の概要: Blank Collapse: Compressing CTC emission for the faster decoding
- arxiv url: http://arxiv.org/abs/2210.17017v2
- Date: Tue, 27 Jun 2023 00:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 17:56:10.115655
- Title: Blank Collapse: Compressing CTC emission for the faster decoding
- Title(参考訳): Blank Collapse: 高速デコードのためのCTCエミッション圧縮
- Authors: Minkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo
- Abstract要約: 本稿では,ビーム探索復号速度を高速化する計算量を削減する手法を提案する。
この手法により、通常のビームサーチ復号よりも最大78%高速な復号化が可能となる。
- 参考スコア(独自算出の注目度): 0.30108936184913293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Connectionist Temporal Classification (CTC) model is a very efficient method
for modeling sequences, especially for speech data. In order to use CTC model
as an Automatic Speech Recognition (ASR) task, the beam search decoding with an
external language model like n-gram LM is necessary to obtain reasonable
results. In this paper we analyze the blank label in CTC beam search deeply and
propose a very simple method to reduce the amount of calculation resulting in
faster beam search decoding speed. With this method, we can get up to 78%
faster decoding speed than ordinary beam search decoding with a very small loss
of accuracy in LibriSpeech datasets. We prove this method is effective not only
practically by experiments but also theoretically by mathematical reasoning. We
also observe that this reduction is more obvious if the accuracy of the model
is higher.
- Abstract(参考訳): コネクショニスト時間分類(ctc)モデルは、特に音声データに対してシーケンスをモデル化する非常に効率的な手法である。
CTCモデルを自動音声認識(ASR)タスクとして使用するためには,n-gram LMのような外部言語モデルを用いたビームサーチデコーディングが必要である。
本稿では,CTCビーム探索におけるブランクラベルを深く分析し,より高速なビーム探索復号を実現する計算量を削減するための非常に簡単な手法を提案する。
この方法では、LibriSpeechデータセットの精度が極めて低いまま、通常のビームサーチデコーディングよりも最大78%高速なデコーディングが可能となる。
本手法は, 実験だけでなく, 理論的にも数学的推論によって有効であることを示す。
また,モデルの精度が高ければ,この削減がより明確であることも確認した。
関連論文リスト
- Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech
Recognition [1.2680687621338012]
Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。
我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。
パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
論文 参考訳(メタデータ) (2023-11-08T19:57:10Z) - A Token-Wise Beam Search Algorithm for RNN-T [3.682821163882332]
本稿では,複数の時間ステップにまたがる共同ネットワークコールをバッチ化する復号ビーム探索アルゴリズムを提案する。
さらに、セグメント上での放射確率の集約は、最も可能性の高いモデル出力を見つけるためのより良い近似と見なすことができる。
論文 参考訳(メタデータ) (2023-02-28T07:20:49Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Adding Connectionist Temporal Summarization into Conformer to Improve
Its Decoder Efficiency For Speech Recognition [22.61761934996406]
本稿では,アテンションデコーダに必要なフレーム数を削減できる新しいコネクショニスト時間要約法を提案する。
ビーム幅が4で、LibriSpeechの復号化予算は最大20%削減できる。
単語誤り率(WER)はビーム幅1で6%、ビーム幅4で3%減少する。
論文 参考訳(メタデータ) (2022-04-08T07:24:00Z) - Cascaded Fast and Slow Models for Efficient Semantic Code Search [46.53530668938728]
本稿では,高速かつ低速なモデルを用いた効率的かつ高精度な意味コード検索フレームワークを提案する。
提案したカスケードアプローチは効率的でスケーラブルなだけでなく,最先端の結果も達成している。
論文 参考訳(メタデータ) (2021-10-15T02:23:35Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - End-to-end Sinkhorn Autoencoder with Noise Generator [10.008055997630304]
本稿では,効率的なデータ収集シミュレーションのためのノイズ発生器を備えた新しいエンド・ツー・エンドのシンクホーンオートエンコーダを提案する。
提案手法は,LHCにおけるALICE実験のZero Degree Calorimetersによるシミュレーションデータの挑戦的データセットにおいて,競合するアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-06-11T18:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。