論文の概要: Accelerating Transformer Inference for Translation via Parallel Decoding
- arxiv url: http://arxiv.org/abs/2305.10427v1
- Date: Wed, 17 May 2023 17:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 14:23:36.743587
- Title: Accelerating Transformer Inference for Translation via Parallel Decoding
- Title(参考訳): 並列デコードによるトランスフォーマ推論の高速化
- Authors: Andrea Santilli, Silvio Severino, Emilian Postolache, Valentino
Maiorca, Michele Mancusi, Riccardo Marin, Emanuele Rodol\`a
- Abstract要約: 自動回帰復号化は機械翻訳(MT)における変圧器の効率を制限する
並列デコーディングアルゴリズムを3つ提示し、異なる言語やモデルでテストする。
- 参考スコア(独自算出の注目度): 2.89306442817912
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive decoding limits the efficiency of transformers for Machine
Translation (MT). The community proposed specific network architectures and
learning-based methods to solve this issue, which are expensive and require
changes to the MT model, trading inference speed at the cost of the translation
quality. In this paper, we propose to address the problem from the point of
view of decoding algorithms, as a less explored but rather compelling
direction. We propose to reframe the standard greedy autoregressive decoding of
MT with a parallel formulation leveraging Jacobi and Gauss-Seidel fixed-point
iteration methods for fast inference. This formulation allows to speed up
existing models without training or modifications while retaining translation
quality. We present three parallel decoding algorithms and test them on
different languages and models showing how the parallelization introduces a
speedup up to 38% w.r.t. the standard autoregressive decoding and nearly 2x
when scaling the method on parallel resources. Finally, we introduce a decoding
dependency graph visualizer (DDGviz) that let us see how the model has learned
the conditional dependence between tokens and inspect the decoding procedure.
- Abstract(参考訳): 自動回帰復号は機械翻訳(MT)の変換器の効率を制限する。
コミュニティは、この問題を解決するための特定のネットワークアーキテクチャと学習ベースの手法を提案し、それは高価でMTモデルの変更を必要とし、翻訳品質のコストで推論速度を取引する。
本稿では,この問題を復号化アルゴリズムの観点から,より探索的ではなく,むしろ説得力のある方向として扱うことを提案する。
そこで本研究では,mtの標準自己回帰復号法をjacobi法とgauss-seidel固定点反復法を併用した並列定式化法で再構成し,高速化する。
この定式化により、翻訳品質を維持しながら、トレーニングや修正なしに既存のモデルを高速化することができる。
我々は3つの並列復号アルゴリズムを示し、異なる言語やモデル上でそれらをテストし、並列化が標準の自己回帰復号法である38%w.r.tに高速化をもたらすことを示す。
最後に、デコード依存グラフ可視化(DDGviz)を導入し、トークン間の条件依存をモデルがどのように学習したかを確認し、デコード手順を検査する。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Fast Inference from Transformers via Speculative Decoding [3.950600027250452]
Transformersのような大規模な自己回帰モデルからの推論は遅く、Kトークンの復号化はモデルのKシリアル実行を伴います。
本研究では,複数のトークンを並列に計算することで,自動回帰モデルから高速にサンプリングするアルゴリズムである投機的復号化を導入する。
論文 参考訳(メタデータ) (2022-11-30T17:33:28Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。