論文の概要: POSS: Position Specialist Generates Better Draft for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2506.03566v1
- Date: Wed, 04 Jun 2025 04:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.151568
- Title: POSS: Position Specialist Generates Better Draft for Speculative Decoding
- Title(参考訳): POSS: ポジションスペシャリストが投機的デコードのためのより良いドラフトを生成する
- Authors: Langlin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang,
- Abstract要約: 投機的復号化はLarge Language Model (LLM)推論を加速させる。
近年の研究では、ターゲットモデルの隠れ状態を利用して、ドラフトモデル予測精度を向上させる。
割り当てられた位置でトークンを生成するために複数の位置特定されたドラフト層からなる位置スペシャリスト(PosS)を提案する。
- 参考スコア(独自算出の注目度): 29.847485296491204
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speculative decoding accelerates Large Language Model (LLM) inference by using a small draft model to predict multiple tokens, and a large target model to verify these tokens in parallel. Recent studies leverage the hidden state of the target model to enhance draft model prediction accuracy. However, existing methods suffer from the degrading quality of draft token predictions at later positions, due to error accumulation in draft model generated features. In this paper, we propose Position Specialists (PosS), which consist of multiple position-specialized draft layers to generate tokens at assigned position(s). Position specialists greatly improve token acceptance rate at later positions per drafting round, as each specialist only needs to focus on handling a certain level of draft model feature deviation. Experiment results on Llama-3-8B-Instruct and Llama-2-13B-chat across six datasets demonstrate that PosS effectively improves over baselines on average acceptance length and speed-up ratio. Our codebase is available at https://github.com/shrango/PosS.
- Abstract(参考訳): 投機的復号化は、複数のトークンを予測するための小さなドラフトモデルと、これらのトークンを並列に検証する大きなターゲットモデルを使用することで、LLM(Large Language Model)推論を加速させる。
近年の研究では、ターゲットモデルの隠れ状態を利用して、ドラフトモデル予測精度を向上させる。
しかし、既存の手法は、ドラフトモデル生成した特徴の誤り蓄積により、後の位置でのドラフトトークン予測の劣化品質に悩まされている。
本稿では,複数の位置特定されたドラフト層から構成される位置スペシャリスト(PosS)を提案する。
ポジションスペシャリストは、ドラフトラウンド毎の後のポジションでのトークンの受け入れ率を大幅に改善する。
6つのデータセットにわたるLlama-3-8B-InstructとLlama-2-13B-chatの実験結果は、PosSが平均受容長とスピードアップ比のベースラインを効果的に改善することを示した。
私たちのコードベースはhttps://github.com/shrango/PosS.comで公開されています。
関連論文リスト
- AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。
また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文 参考訳(メタデータ) (2024-10-24T01:13:43Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Decoding Speculative Decoding [4.56754610152086]
投機的復号化は、品質を犠牲にすることなく、大規模言語モデルの推論を高速化する技術である。
LLaMA-65BとOPT-66Bの350以上の実験を投機的復号法を用いて検討した。
新しく設計されたドラフトモデルは、既存のドラフトモデルよりも111%高いスループットを提供できる。
論文 参考訳(メタデータ) (2024-02-02T16:15:24Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - A Frustratingly Easy Improvement for Position Embeddings via Random
Padding [68.75670223005716]
本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
論文 参考訳(メタデータ) (2023-05-08T17:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。