Fugu-MT 論文翻訳(概要): CLaSp: In-Context Layer Skip for Self-Speculative Decoding

論文の概要: CLaSp: In-Context Layer Skip for Self-Speculative Decoding

arxiv url: http://arxiv.org/abs/2505.24196v1
Date: Fri, 30 May 2025 04:15:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.76493
Title: CLaSp: In-Context Layer Skip for Self-Speculative Decoding
Title（参考訳）: CLaSp: 自己投機的デコードのためのコンテキスト内レイヤスキップ
Authors: Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang,
Abstract要約: 我々は、自己投機的復号化のためのコンテキスト内レイヤスキッピング戦略であるCLaSpを提案する。以前の方法とは異なり、CLaSpは追加のドラフトモジュールや追加のトレーニングを必要としない。 CLaSpはLLaMA3シリーズモデルの1.3x 1.7xの高速化を実現する。
参考スコア（独自算出の注目度）: 20.800300833576035
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative decoding (SD) is a promising method for accelerating the decoding process of Large Language Models (LLMs). The efficiency of SD primarily hinges on the consistency between the draft model and the verify model. However, existing drafting approaches typically require additional modules to be trained, which can be challenging to implement and ensure compatibility across various LLMs. In this paper, we propose CLaSp, an in-context layer-skipping strategy for self-speculative decoding. Unlike prior methods, CLaSp does not require additional drafting modules or extra training. Instead, it employs a plug-and-play mechanism by skipping intermediate layers of the verify model to construct a compressed draft model. Specifically, we develop a dynamic programming algorithm that optimizes the layer-skipping process by leveraging the complete hidden states from the last verification stage as an objective. This enables CLaSp to dynamically adjust its layer-skipping strategy after each verification stage, without relying on pre-optimized sets of skipped layers. Experimental results across diverse downstream tasks demonstrate that CLaSp achieves a speedup of 1.3x ~ 1.7x on LLaMA3 series models without altering the original distribution of the generated text.
Abstract（参考訳）: 投機的復号法 (SD) は大規模言語モデル (LLM) の復号過程を高速化するための有望な手法である。 SDの効率は、主にドラフトモデルと検証モデルとの整合性に依存する。しかし、既存のドラフト手法では、トレーニング対象のモジュールを追加する必要があるため、様々なLLM間の互換性の確保と実装が困難になる可能性がある。本稿では,自己投機的復号化のためのコンテキスト内レイヤスキッピング戦略であるCLaSpを提案する。以前の方法とは異なり、CLaSpは追加のドラフトモジュールや追加のトレーニングを必要としない。代わりに、バリデーションモデルの中間層をスキップして圧縮されたドラフトモデルを構築することで、プラグアンドプレイ機構を使用する。具体的には,最終検証段階から完全に隠蔽された状態を目的として活用することにより,レイヤスキッピングプロセスを最適化する動的プログラミングアルゴリズムを開発する。これにより、CLaSpは、スキップされたレイヤのセットを事前に最適化することなく、検証段階の後に動的にレイヤスキャッピング戦略を調整することができる。様々な下流タスクに対する実験結果から、CLaSpは生成されたテキストの元の分布を変更することなく、LLaMA3シリーズモデル上で1.3x〜1.7xのスピードアップを達成することが示された。

関連論文リスト

Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs [21.541258368039955]
事前訓練された大規模言語モデル(LLM)のレイヤを独立したモジュールとして操作することで、テストサンプル毎にカスタマイズされたより良く、より浅いモデルを構築することができる。特に、事前訓練されたモデルからの各レイヤは、繰り返しニューラルネットワーク(RNN)としてスキップ/プルーニングまたは繰り返し、任意の順序で他のレイヤと積み重ねられ、サンプル毎にチェーン・オブ・レイヤ(CoLa)が生成される。
論文参考訳（メタデータ） (2025-07-10T17:59:53Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
KNN-SSD: Enabling Dynamic Self-Speculative Decoding via Nearest Neighbor Layer Set Optimization [20.230236656479207]
投機的復号化(SD)は、大規模言語モデル(LLM)の推論を加速するために広く使われているパラダイムとして登場した。 KNN-SSDは、K-Nearest Neighbor(KNN)探索を利用して、異なるスキップ層と様々なドメイン入力をマッチングするアルゴリズムである。
論文参考訳（メタデータ） (2025-05-22T03:04:47Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文参考訳（メタデータ） (2024-10-09T14:15:30Z)
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。 FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文参考訳（メタデータ） (2024-08-28T06:28:01Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。 Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文参考訳（メタデータ） (2024-02-29T19:55:06Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。