Fugu-MT 論文翻訳(概要): Lossless Speedup of Autoregressive Translation with Generalized Aggressive Decoding

論文の概要: Lossless Speedup of Autoregressive Translation with Generalized Aggressive Decoding

arxiv url: http://arxiv.org/abs/2203.16487v1
Date: Wed, 30 Mar 2022 17:27:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 14:17:48.399653
Title: Lossless Speedup of Autoregressive Translation with Generalized Aggressive Decoding
Title（参考訳）: 一般化アグレッシブデコーディングによる自動回帰翻訳のロスレス高速化
Authors: Heming Xia, Tao Ge, Furu Wei, Zhifang Sui
Abstract要約: GAD(Generalized Aggressive Decoding)は、自動回帰翻訳を品質損失なく高速化するための新しいアプローチである。 GADはNATを通じて複数のトークンを並列に復号し、自己回帰的に検証する。我々は、WMT14の英独翻訳タスクで実験を行い、バニラGADが、約3倍のスピードアップでグリーディ復号と全く同じ結果が得られることを確認した。
参考スコア（独自算出の注目度）: 89.34215758499198
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose Generalized Aggressive Decoding (GAD) -- a novel approach to accelerating autoregressive translation with no quality loss, through the collaboration of autoregressive and non-autoregressive translation (NAT) of the Transformer. At each decoding iteration, GAD aggressively decodes a number of tokens in parallel as a draft through NAT and then verifies them in the autoregressive manner, where only the tokens that pass the verification are kept as decoded tokens. GAD can achieve the same performance as autoregressive translation but perform much more efficiently because both NAT drafting and autoregressive verification are fast due to parallel computing. We conduct experiments in the WMT14 English-German translation task and confirm that the vanilla GAD yields exactly the same results as greedy decoding with about 3x speedup, and that its variant (GAD++) with an advanced verification strategy not only outperforms the greedy translation and even achieves the comparable translation quality with the beam search result, but also further improves the decoding speed, resulting in an around 5x speedup over autoregressive translation.
Abstract（参考訳）: 本稿では,GAD(Generalized Aggressive Decoding)を提案する。トランスフォーマーの自己回帰的・非自己回帰的翻訳(NAT)の協調により,品質損失のない自己回帰的翻訳を高速化する新しいアプローチである。各デコーディングイテレーションで、gadはnatを通してドラフトとして並行して多数のトークンを積極的にデコードし、検証をパスするトークンのみがデコードされたトークンとして保持される自己回帰的な方法でそれらを検証する。 GADは自動回帰翻訳と同じ性能を達成できるが、NATの起草と自己回帰検証は並列計算のため高速であるため、はるかに効率的に行うことができる。我々はwmt14の英ドイツ語翻訳タスクで実験を行い、バニラgadが約3倍のスピードアップでグリーディ復号と全く同じ結果が得られること、そしてその進化した検証戦略(gad++)がグリーディ翻訳よりも優れるだけでなく、ビーム検索結果と同等の翻訳品質を達成し、さらにデコード速度を向上し、自己回帰翻訳よりも約5倍のスピードアップをもたらすことを確認した。

関連論文リスト

SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [4.268504966623081]
本稿では,長いシーケンスにおける投機的復号化性能を向上させるドロップインエンハンスメントであるSpecExtendを紹介する。 SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的な注意メカニズムをドラフトモデルとターゲットモデルの両方に統合する。そこで我々は,新しいKVキャッシュ更新戦略であるCross-model Retrievalを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:00Z)
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms [101.9736063064503]
大規模言語モデル(LLM)の推論を高速化する一般的な手法として、投機的復号法が登場した。本稿では,テキスト生成時に投機的復号化のためのハイパーパラメータの設定を適応的に選択する学習自由オンライン学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T05:56:31Z)
Speculative Sampling via Exponential Races [46.8257865686349]
投機的復号化は、より小さなドラフトモデルを用いて大きな言語モデル推論を加速する。本稿では,指数関数型レースERSDによる新しい投機的復号法を提案する。
論文参考訳（メタデータ） (2025-04-21T23:02:08Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。 FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文参考訳（メタデータ） (2024-12-17T08:02:08Z)
FastDraft: How to Train Your Draft [0.7499722271664144]
我々はFastDraftを紹介します。FastDraftは、ドラフトモデルを任意の大きな言語モデルに事前トレーニングし、調整するための、新しく効率的なアプローチです。我々は、人気のあるPhi-3-miniとLlama-3.1-8Bモデルの2つの高パラメータ効率ドラフトをトレーニングすることで、FastDraftを実証する。 FastDraftを使って、Intel$circledR$Gaudi$circledR$2アクセラレータを24時間以内に1つのサーバに約100億のトークンでドラフトを作成することができました。
論文参考訳（メタデータ） (2024-11-17T12:32:44Z)
SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文参考訳（メタデータ） (2024-11-07T18:49:33Z)
AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。 AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文参考訳（メタデータ） (2024-10-22T19:15:35Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文参考訳（メタデータ） (2020-10-27T17:38:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。