論文の概要: Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification
- arxiv url: http://arxiv.org/abs/2505.13204v1
- Date: Mon, 19 May 2025 14:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.671776
- Title: Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification
- Title(参考訳): アライメントサンプリングと条件検証によるアライメント拡張型投機的デコード
- Authors: Jikai Wang, Zhenxu Tian, Juntao Li, Qingrong Xia, Xinyu Duan, Zhefeng Wang, Baoxing Huai, Min Zhang,
- Abstract要約: トレーニング不要なアライメント拡張型投機的復号アルゴリズムを提案する。
提案手法は,平均受理長を2.39まで,生成速度を2.23倍に向上させる。
- 参考スコア(独自算出の注目度): 33.05591553169347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have revealed the great potential of speculative decoding in accelerating the autoregressive generation process of large language models. The success of these methods relies on the alignment between draft candidates and the sampled outputs of the target model. Existing methods mainly achieve draft-target alignment with training-based methods, e.g., EAGLE, Medusa, involving considerable training costs. In this paper, we present a training-free alignment-augmented speculative decoding algorithm. We propose alignment sampling, which leverages output distribution obtained in the prefilling phase to provide more aligned draft candidates. To further benefit from high-quality but non-aligned draft candidates, we also introduce a simple yet effective flexible verification strategy. Through an adaptive probability threshold, our approach can improve generation accuracy while further improving inference efficiency. Experiments on 8 datasets (including question answering, summarization and code completion tasks) show that our approach increases the average generation score by 3.3 points for the LLaMA3 model. Our method achieves a mean acceptance length up to 2.39 and speed up generation by 2.23.
- Abstract(参考訳): 近年の研究では、大規模言語モデルの自己回帰生成プロセスの高速化において、投機的復号化の大きな可能性を明らかにしている。
これらの手法の成功は、ドラフト候補と対象モデルのサンプル出力との整合性に依存する。
既存の方法は、トレーニングベースの手法(例えば、ERGLE、Medusa)と、かなりのトレーニングコストを含むドラフトターゲットアライメントを主に達成している。
本稿では,トレーニング不要なアライメント拡張型投機的復号化アルゴリズムを提案する。
本稿では, プレフィルフェーズで得られた出力分布を利用して, より整列したドラフト候補を提供するアライメントサンプリングを提案する。
高品質で整合性のないドラフト候補のさらなるメリットを得るためには、単純かつ効果的なフレキシブルな検証戦略も導入する。
適応確率しきい値により,提案手法は推論効率を向上しながら生成精度を向上させることができる。
8つのデータセット(質問応答、要約、コード補完タスクを含む)の実験では、LLaMA3モデルの平均生成スコアが3.3ポイント増加することが示されている。
提案手法は,平均受理長を2.39まで,生成速度を2.23倍に向上させる。
関連論文リスト
- Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - InfAlign: Inference-aware language model alignment [58.66389179049758]
言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。
この列車/テストのミスマッチは、推論時間法の観点から標準のRLHFフレームワークを最適化することを示す。
本稿では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T18:45:36Z) - Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。
より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。
本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-20T09:46:30Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。