Fugu-MT 論文翻訳(概要): ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding

論文の概要: ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding

arxiv url: http://arxiv.org/abs/2402.13485v1
Date: Wed, 21 Feb 2024 02:51:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 17:21:30.841447
Title: ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding
Title（参考訳）: ProPD: LLM並列デコードのための動的トーケントリープルーニングと生成
Authors: Shuzhang Zhong, Zebin Yang, Meng Li, Ruihao Gong, Runsheng Wang, Ru Huang
Abstract要約: ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。 ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
参考スコア（独自算出の注目度）: 12.449023969197684
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in generative large language models (LLMs) have significantly boosted the performance in natural language processing tasks. However, their efficiency is hampered by the inherent limitations in autoregressive token generation. While parallel decoding with token tree verification, e.g., Medusa, has been proposed to improve decoding parallelism and efficiency, it often struggles with maintaining contextual relationships due to its independent token prediction approach and incurs significant verification overhead, especially with large tree sizes and batch processing. In this paper, we propose ProPD, an efficient LLM parallel decoding framework based on dynamic token tree pruning and generation. ProPD features an advanced early pruning mechanism to efficiently eliminate unpromising token sequences to improve verification efficiency. Additionally, it introduces a dynamic token tree generation algorithm to balance the computation and parallelism of the verification phase in real-time and maximize the overall efficiency across different batch sizes, sequence lengths, and tasks, etc. We verify ProPD across a diverse set of datasets, LLMs, and batch sizes and demonstrate ProPD consistently outperforms existing decoding algorithms by 1.1-3.2x.
Abstract（参考訳）: 生成型大言語モデル(llm)の最近の進歩は、自然言語処理タスクの性能を大幅に向上させた。しかし、その効率性は自己回帰トークン生成の固有の制限によって阻害される。トークンツリー検証による並列デコーディング(例えばMedusa)は、デコーディングの並列性と効率を改善するために提案されているが、独立したトークン予測アプローチによるコンテキスト関係の維持に苦慮し、特に大きなツリーサイズとバッチ処理において、かなりの検証オーバーヘッドが発生する。本稿では,動的トークンツリープルーニングと生成に基づく,効率的なLLM並列デコードフレームワークであるPRDを提案する。 ProPDは、未生成のトークンシーケンスを効率よく排除し、検証効率を向上させる、高度な早期プルーニング機構を備えている。さらに、動的トークンツリー生成アルゴリズムを導入し、検証フェーズの計算と並列性をリアルタイムでバランスさせ、バッチサイズ、シーケンスの長さ、タスクなどによって全体的な効率を最大化する。我々は、さまざまなデータセット、LLM、バッチサイズにわたるProPDを検証するとともに、ProPDが既存のデコードアルゴリズムを1.1-3.2xで一貫して上回っていることを示す。

関連論文リスト

TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
From Token to Line: Enhancing Code Generation with a Long-Term Perspective [46.98293675904081]
大規模言語モデル(LLM)は、コード生成タスクの開発を著しく促進している。本稿では,MCTS を利用した textbfLSR-MCTS アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-10T04:03:25Z)
Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding [11.07450742824775]
投機的復号化は、ターゲットの大規模言語モデルの自動回帰トークン生成プロセスを加速することを目的としている。いくつかのアプローチでは、複数のヘッドを持つドラフトモデルを使用して、各ヘッドがシーケンス内のトークンを処理する将来のトークンのシーケンスを予測する。本稿では,シリアルヘッドと並列ヘッドを組み合わせたハイブリッドモデルであるGumihoを提案する。
論文参考訳（メタデータ） (2025-03-13T07:55:38Z)
PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文参考訳（メタデータ） (2025-03-05T15:24:11Z)
Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。 Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文参考訳（メタデータ） (2025-02-22T14:13:37Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。 ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文参考訳（メタデータ） (2024-04-10T16:11:09Z)
Recursive Speculative Decoding: Accelerating LLM Inference via Sampling Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。近年の作業では、草稿の伐採によってこの方法が進歩している。再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文参考訳（メタデータ） (2024-02-21T22:57:49Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文参考訳（メタデータ） (2023-10-18T16:07:01Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。