論文の概要: Label-Looping: Highly Efficient Decoding for Transducers
- arxiv url: http://arxiv.org/abs/2406.06220v1
- Date: Mon, 10 Jun 2024 12:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:07:44.212142
- Title: Label-Looping: Highly Efficient Decoding for Transducers
- Title(参考訳): Label-Looping: トランスデューサのための高効率デコーディング
- Authors: Vladimir Bataev, Hainan Xu, Daniel Galvez, Vitaly Lavrukhin, Boris Ginsburg,
- Abstract要約: 本稿では,Transducer推論のための高効率なグリーディ復号アルゴリズムを提案する。
本稿では,並列化仮説操作をサポートするバッチ内の部分仮説を表現するためにテンソルを用いた新しいデータ構造を提案する。
実験により、ラベルループアルゴリズムは従来のバッチデコードアルゴリズムと比較して2.0倍のスピードアップを実現することが示された。
- 参考スコア(独自算出の注目度): 19.091932566833265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a highly efficient greedy decoding algorithm for Transducer inference. We propose a novel data structure using CUDA tensors to represent partial hypotheses in a batch that supports parallelized hypothesis manipulations. During decoding, our algorithm maximizes GPU parallelism by adopting a nested-loop design, where the inner loop consumes all blank predictions, while non-blank predictions are handled in the outer loop. Our algorithm is general-purpose and can work with both conventional Transducers and Token-and-Duration Transducers. Experiments show that the label-looping algorithm can bring a speedup up to 2.0X compared to conventional batched decoding algorithms when using batch size 32, and can be combined with other compiler or GPU call-related techniques to bring more speedup. We will open-source our implementation to benefit the research community.
- Abstract(参考訳): 本稿では,Transducer推論のための高効率なグリーディ復号アルゴリズムを提案する。
本稿では,CUDAテンソルを用いた並列化仮説演算をサポートするバッチ内の部分仮説を表現する新しいデータ構造を提案する。
復号中は、内部ループがすべての空白予測を消費し、非ブランク予測が外ループで処理されるネストループ設計を採用することにより、GPU並列性を最大化する。
本アルゴリズムは汎用的であり,従来のトランスデューサとToken-and-Durationトランスデューサの両方で動作する。
実験により、ラベルループアルゴリズムは、バッチサイズ32を使用する場合の従来のバッチデコードアルゴリズムと比較して2.0倍のスピードアップを実現し、他のコンパイラやGPUコール関連技術と組み合わせて、高速化を実現することができる。
我々は、研究コミュニティに利益をもたらすために、私たちの実装をオープンソースにします。
関連論文リスト
- CrossMPT: Cross-attention Message-Passing Transformer for Error Correcting Codes [14.631435001491514]
クロスアテンションメッセージパージングトランス(CrossMPT)を提案する。
また、CrossMPTは、既存のニューラルネットワークベースのデコーダを、様々なコードクラスで大幅に上回っていることを示す。
特に、CrossMPTは、メモリ使用量、複雑性、推論時間、トレーニング時間を著しく削減しながら、このデコードパフォーマンスの改善を実現している。
論文 参考訳(メタデータ) (2024-05-02T06:30:52Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。
また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文 参考訳(メタデータ) (2022-10-31T07:46:10Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Nearest neighbor search with compact codes: A decoder perspective [77.60612610421101]
バイナリハッシュや製品量化器などの一般的な手法を自動エンコーダとして再解釈する。
後方互換性のあるデコーダを設計し、同じ符号からベクトルの再構成を改善する。
論文 参考訳(メタデータ) (2021-12-17T15:22:28Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - Term Revealing: Furthering Quantization at Run Time on Quantized DNNs [9.240133036531402]
本稿では,従来の量子化手法で既に定量化されているディープニューラルネットワーク(DNN)の性能向上のために,実行時の量子化を促進させる新しい手法である Term Revealing (TR) を提案する。
TRは値のバイナリ表現において2項のパワーで動作する。
本稿では、少数の制御ビットを用いて従来の量子化とTR対応量子化を無視可能な遅延で切り替えるFPGAの実装を示す。
論文 参考訳(メタデータ) (2020-07-13T14:03:10Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Pruning Neural Belief Propagation Decoders [77.237958592189]
本稿では,機械学習を用いたBPデコードに対して,過剰完全パリティチェック行列を調整する手法を提案する。
我々は,デコーダの複雑さを低減しつつ,0.27dB,1.5dBのML性能を実現する。
論文 参考訳(メタデータ) (2020-01-21T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。