Fugu-MT 論文翻訳(概要): Label-Looping: Highly Efficient Decoding for Transducers

論文の概要: Label-Looping: Highly Efficient Decoding for Transducers

arxiv url: http://arxiv.org/abs/2406.06220v2
Date: Mon, 16 Sep 2024 19:04:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 22:00:57.573712
Title: Label-Looping: Highly Efficient Decoding for Transducers
Title（参考訳）: Label-Looping: トランスデューサのための高効率デコーディング
Authors: Vladimir Bataev, Hainan Xu, Daniel Galvez, Vitaly Lavrukhin, Boris Ginsburg,
Abstract要約: 本稿では,トランスデューサに基づく音声認識モデルのための,高効率なグリーディ復号アルゴリズムを提案する。実験の結果,ラベルループアルゴリズムはバッチサイズ32を使用する場合,従来のバッチデコードよりも最大2.0倍高速であることがわかった。
参考スコア（独自算出の注目度）: 19.091932566833265
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a highly efficient greedy decoding algorithm for Transducer-based speech recognition models. We redesign the standard nested-loop design for RNN-T decoding, swapping loops over frames and labels: the outer loop iterates over labels, while the inner loop iterates over frames searching for the next non-blank symbol. Additionally, we represent partial hypotheses in a special structure using CUDA tensors, supporting parallelized hypotheses manipulations. Experiments show that the label-looping algorithm is up to 2.0X faster than conventional batched decoding when using batch size 32. It can be further combined with other compiler or GPU call-related techniques to achieve even more speedup. Our algorithm is general-purpose and can work with both conventional Transducers and Token-and-Duration Transducers. We open-source our implementation to benefit the research community.
Abstract（参考訳）: 本稿では,トランスデューサに基づく音声認識モデルのための,高効率なグリーディ復号アルゴリズムを提案する。我々は、RNN-Tデコードのための標準的なネストループ設計を再設計し、フレームやラベルにループを置き換え、外ループはラベルに反復し、内ループは次の非ブランクシンボルを探すフレームに反復する。さらに、CUDAテンソルを用いた特殊構造における部分仮説を表現し、並列化仮説の操作をサポートする。実験の結果,ラベルループアルゴリズムはバッチサイズ32を使用する場合,従来のバッチデコードよりも最大2.0倍高速であることがわかった。他のコンパイラやGPUコール関連のテクニックとさらに組み合わせて、さらなるスピードアップを実現することも可能だ。本アルゴリズムは汎用的であり,従来のトランスデューサとToken-and-Durationトランスデューサの両方で動作する。私たちは研究コミュニティに利益をもたらすために、実装をオープンソースにしています。

関連論文リスト

Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文参考訳（メタデータ） (2025-05-19T18:00:00Z)
CrossMPT: Cross-attention Message-Passing Transformer for Error Correcting Codes [14.631435001491514]
クロスアテンションメッセージパージングトランス(CrossMPT)を提案する。また、CrossMPTは、既存のニューラルネットワークベースのデコーダを、様々なコードクラスで大幅に上回っていることを示す。特に、CrossMPTは、メモリ使用量、複雑性、推論時間、トレーニング時間を著しく削減しながら、このデコードパフォーマンスの改善を実現している。
論文参考訳（メタデータ） (2024-05-02T06:30:52Z)
SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。 Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文参考訳（メタデータ） (2023-06-09T22:29:56Z)
Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文参考訳（メタデータ） (2022-10-31T07:46:10Z)
Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文参考訳（メタデータ） (2022-10-23T00:32:04Z)
Nearest neighbor search with compact codes: A decoder perspective [77.60612610421101]
バイナリハッシュや製品量化器などの一般的な手法を自動エンコーダとして再解釈する。後方互換性のあるデコーダを設計し、同じ符号からベクトルの再構成を改善する。
論文参考訳（メタデータ） (2021-12-17T15:22:28Z)
Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。 Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文参考訳（メタデータ） (2021-09-27T14:06:47Z)
Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文参考訳（メタデータ） (2020-10-27T17:38:51Z)
Term Revealing: Furthering Quantization at Run Time on Quantized DNNs [9.240133036531402]
本稿では,従来の量子化手法で既に定量化されているディープニューラルネットワーク(DNN)の性能向上のために,実行時の量子化を促進させる新しい手法である Term Revealing (TR) を提案する。 TRは値のバイナリ表現において2項のパワーで動作する。本稿では、少数の制御ビットを用いて従来の量子化とTR対応量子化を無視可能な遅延で切り替えるFPGAの実装を示す。
論文参考訳（メタデータ） (2020-07-13T14:03:10Z)
On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文参考訳（メタデータ） (2020-04-24T16:57:52Z)
Pruning Neural Belief Propagation Decoders [77.237958592189]
本稿では,機械学習を用いたBPデコードに対して,過剰完全パリティチェック行列を調整する手法を提案する。我々は,デコーダの複雑さを低減しつつ,0.27dB,1.5dBのML性能を実現する。
論文参考訳（メタデータ） (2020-01-21T12:05:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。