論文の概要: Blank Collapse: Compressing CTC emission for the faster decoding
- arxiv url: http://arxiv.org/abs/2210.17017v1
- Date: Mon, 31 Oct 2022 02:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:48:16.884286
- Title: Blank Collapse: Compressing CTC emission for the faster decoding
- Title(参考訳): Blank Collapse: 高速デコードのためのCTCエミッション圧縮
- Authors: Minkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo
- Abstract要約: 本稿では,ビーム探索復号速度を高速化する計算量を削減する手法を提案する。
この手法により、通常のビームサーチ復号よりも最大78%高速な復号化が可能となる。
- 参考スコア(独自算出の注目度): 0.30108936184913293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Connectionist Temporal Classification (CTC) model is a very efficient method
for modeling sequences, especially for speech data. In order to use CTC model
as an Automatic Speech Recognition (ASR) task, the beam search decoding with an
external language model like n-gram LM is necessary to obtain reasonable
results. In this paper we analyze the blank label in CTC beam search deeply and
propose a very simple method to reduce the amount of calculation resulting in
faster beam search decoding speed. With this method, we can get up to 78%
faster decoding speed than ordinary beam search decoding with a very small loss
of accuracy in LibriSpeech datasets. We prove this method is effective not only
practically by experiments but also theoretically by mathematical reasoning. We
also observe that this reduction is more obvious if the accuracy of the model
is higher.
- Abstract(参考訳): コネクショニスト時間分類(ctc)モデルは、特に音声データに対してシーケンスをモデル化する非常に効率的な手法である。
CTCモデルを自動音声認識(ASR)タスクとして使用するためには,n-gram LMのような外部言語モデルを用いたビームサーチデコーディングが必要である。
本稿では,CTCビーム探索におけるブランクラベルを深く分析し,より高速なビーム探索復号を実現する計算量を削減するための非常に簡単な手法を提案する。
この方法では、LibriSpeechデータセットの精度が極めて低いまま、通常のビームサーチデコーディングよりも最大78%高速なデコーディングが可能となる。
本手法は, 実験だけでなく, 理論的にも数学的推論によって有効であることを示す。
また,モデルの精度が高ければ,この削減がより明確であることも確認した。
関連論文リスト
- GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech
Recognition [1.2680687621338012]
Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。
我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。
パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
論文 参考訳(メタデータ) (2023-11-08T19:57:10Z) - A Token-Wise Beam Search Algorithm for RNN-T [3.682821163882332]
本稿では,複数の時間ステップにまたがる共同ネットワークコールをバッチ化する復号ビーム探索アルゴリズムを提案する。
さらに、セグメント上での放射確率の集約は、最も可能性の高いモデル出力を見つけるためのより良い近似と見なすことができる。
論文 参考訳(メタデータ) (2023-02-28T07:20:49Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Adding Connectionist Temporal Summarization into Conformer to Improve
Its Decoder Efficiency For Speech Recognition [22.61761934996406]
本稿では,アテンションデコーダに必要なフレーム数を削減できる新しいコネクショニスト時間要約法を提案する。
ビーム幅が4で、LibriSpeechの復号化予算は最大20%削減できる。
単語誤り率(WER)はビーム幅1で6%、ビーム幅4で3%減少する。
論文 参考訳(メタデータ) (2022-04-08T07:24:00Z) - Cascaded Fast and Slow Models for Efficient Semantic Code Search [46.53530668938728]
本稿では,高速かつ低速なモデルを用いた効率的かつ高精度な意味コード検索フレームワークを提案する。
提案したカスケードアプローチは効率的でスケーラブルなだけでなく,最先端の結果も達成している。
論文 参考訳(メタデータ) (2021-10-15T02:23:35Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - End-to-end Sinkhorn Autoencoder with Noise Generator [10.008055997630304]
本稿では,効率的なデータ収集シミュレーションのためのノイズ発生器を備えた新しいエンド・ツー・エンドのシンクホーンオートエンコーダを提案する。
提案手法は,LHCにおけるALICE実験のZero Degree Calorimetersによるシミュレーションデータの挑戦的データセットにおいて,競合するアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-06-11T18:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。