Fugu-MT 論文翻訳(概要): Blank Collapse: Compressing CTC emission for the faster decoding

論文の概要: Blank Collapse: Compressing CTC emission for the faster decoding

arxiv url: http://arxiv.org/abs/2210.17017v1
Date: Mon, 31 Oct 2022 02:12:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 18:48:16.884286
Title: Blank Collapse: Compressing CTC emission for the faster decoding
Title（参考訳）: Blank Collapse: 高速デコードのためのCTCエミッション圧縮
Authors: Minkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo
Abstract要約: 本稿では,ビーム探索復号速度を高速化する計算量を削減する手法を提案する。この手法により、通常のビームサーチ復号よりも最大78%高速な復号化が可能となる。
参考スコア（独自算出の注目度）: 0.30108936184913293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Connectionist Temporal Classification (CTC) model is a very efficient method for modeling sequences, especially for speech data. In order to use CTC model as an Automatic Speech Recognition (ASR) task, the beam search decoding with an external language model like n-gram LM is necessary to obtain reasonable results. In this paper we analyze the blank label in CTC beam search deeply and propose a very simple method to reduce the amount of calculation resulting in faster beam search decoding speed. With this method, we can get up to 78% faster decoding speed than ordinary beam search decoding with a very small loss of accuracy in LibriSpeech datasets. We prove this method is effective not only practically by experiments but also theoretically by mathematical reasoning. We also observe that this reduction is more obvious if the accuracy of the model is higher.
Abstract（参考訳）: コネクショニスト時間分類(ctc)モデルは、特に音声データに対してシーケンスをモデル化する非常に効率的な手法である。 CTCモデルを自動音声認識(ASR)タスクとして使用するためには,n-gram LMのような外部言語モデルを用いたビームサーチデコーディングが必要である。本稿では,CTCビーム探索におけるブランクラベルを深く分析し,より高速なビーム探索復号を実現する計算量を削減するための非常に簡単な手法を提案する。この方法では、LibriSpeechデータセットの精度が極めて低いまま、通常のビームサーチデコーディングよりも最大78%高速なデコーディングが可能となる。本手法は, 実験だけでなく, 理論的にも数学的推論によって有効であることを示す。また,モデルの精度が高ければ,この削減がより明確であることも確認した。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文参考訳（メタデータ） (2025-05-19T18:00:00Z)
Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE) PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文参考訳（メタデータ） (2024-07-03T14:34:03Z)
Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文参考訳（メタデータ） (2024-06-11T09:37:52Z)
GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition [1.2680687621338012]
Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
論文参考訳（メタデータ） (2023-11-08T19:57:10Z)
A Token-Wise Beam Search Algorithm for RNN-T [3.682821163882332]
本稿では,複数の時間ステップにまたがる共同ネットワークコールをバッチ化する復号ビーム探索アルゴリズムを提案する。さらに、セグメント上での放射確率の集約は、最も可能性の高いモデル出力を見つけるためのより良い近似と見なすことができる。
論文参考訳（メタデータ） (2023-02-28T07:20:49Z)
Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-13T02:44:05Z)
Adding Connectionist Temporal Summarization into Conformer to Improve Its Decoder Efficiency For Speech Recognition [22.61761934996406]
本稿では,アテンションデコーダに必要なフレーム数を削減できる新しいコネクショニスト時間要約法を提案する。ビーム幅が4で、LibriSpeechの復号化予算は最大20%削減できる。単語誤り率(WER)はビーム幅1で6%、ビーム幅4で3%減少する。
論文参考訳（メタデータ） (2022-04-08T07:24:00Z)
Cascaded Fast and Slow Models for Efficient Semantic Code Search [46.53530668938728]
本稿では,高速かつ低速なモデルを用いた効率的かつ高精度な意味コード検索フレームワークを提案する。提案したカスケードアプローチは効率的でスケーラブルなだけでなく,最先端の結果も達成している。
論文参考訳（メタデータ） (2021-10-15T02:23:35Z)
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文参考訳（メタデータ） (2021-09-27T05:21:30Z)
FSR: Accelerating the Inference Process of Transducer-Based Models by Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文参考訳（メタデータ） (2021-04-07T03:15:10Z)
Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文参考訳（メタデータ） (2021-02-05T15:01:03Z)
End-to-end Sinkhorn Autoencoder with Noise Generator [10.008055997630304]
本稿では,効率的なデータ収集シミュレーションのためのノイズ発生器を備えた新しいエンド・ツー・エンドのシンクホーンオートエンコーダを提案する。提案手法は,LHCにおけるALICE実験のZero Degree Calorimetersによるシミュレーションデータの挑戦的データセットにおいて,競合するアプローチよりも優れていた。
論文参考訳（メタデータ） (2020-06-11T18:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。