論文の概要: SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths
- arxiv url: http://arxiv.org/abs/2405.19715v2
- Date: Fri, 21 Jun 2024 01:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:07:12.586182
- Title: SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths
- Title(参考訳): SpecDec++: 適応候補長による投機的デコーディングの強化
- Authors: Kaixuan Huang, Xudong Guo, Mengdi Wang,
- Abstract要約: SpecDec++は投機的デコードの拡張版で、ハエの候補長を適応的に決定する。
SpecDec++を実装し,llama-2-chat 7Bと70Bモデルペアに適用する。
- 参考スコア(独自算出の注目度): 41.863092939498316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding reduces the inference latency of a target large language model via utilizing a smaller and faster draft model. Its performance depends on a hyperparameter K -- the candidate length, i.e., the number of candidate tokens for the target model to verify in each round. However, previous methods often use simple heuristics to choose K, which may result in sub-optimal performance. We study the choice of the candidate length K and formulate it as a Markov Decision Process. We theoretically show that the optimal policy of this Markov decision process takes the form of a threshold policy, i.e., the current speculation should stop and be verified when the probability of getting a rejection exceeds a threshold value. Motivated by this theory, we propose SpecDec++, an enhanced version of speculative decoding that adaptively determines the candidate length on the fly. We augment the draft model with a trained acceptance prediction head to predict the conditional acceptance probability of the candidate tokens. SpecDec++ will stop the current speculation when the predicted probability that at least one token gets rejected exceeds a threshold. We implement SpecDec++ and apply it to the llama-2-chat 7B & 70B model pair. Our adaptive method achieves a 2.04x speedup on the Alpaca dataset (an additional 7.2% improvement over the baseline speculative decoding). On the GSM8K and HumanEval datasets, our method achieves a 2.26x speedup (9.4% improvement) and 2.23x speedup (11.1% improvement), respectively.
- Abstract(参考訳): 投機的復号化は、より小さくより高速なドラフトモデルを利用することで、ターゲットとする大言語モデルの推論遅延を低減する。
その性能は、候補長、すなわち各ラウンドで検証するターゲットモデルの候補トークンの数であるハイパーパラメータKに依存する。
しかし、従来の手法ではKを選択するために単純なヒューリスティックスを使用しており、これは準最適性能をもたらす可能性がある。
候補長Kの選択について検討し、マルコフ決定過程として定式化する。
理論的には、このマルコフ決定過程の最適ポリシーはしきい値ポリシーの形式をとる、すなわち、拒絶される確率がしきい値を超えると、現在の憶測は停止して検証されるべきである。
この理論によって動機付けられたSpecDec++は、投機的復号法の拡張版で、ハエの候補長を適応的に決定する。
トレーニングされた受入予測ヘッドでドラフトモデルを拡張し、候補トークンの条件付き受入確率を予測する。
SpecDec++は、少なくとも1つのトークンが拒否される確率がしきい値を超えると、現在の憶測を止める。
SpecDec++を実装し,llama-2-chat 7Bと70Bモデルペアに適用する。
我々の適応的手法は、Alpacaデータセット上で2.04倍の高速化を実現している(ベースライン投機復号法よりも7.2%改善されている)。
GSM8KとHumanEvalのデータセットでは、それぞれ2.26倍のスピードアップ(9.4%の改善)と2.23倍のスピードアップ(11.1%改善)を達成した。
関連論文リスト
- Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - Decision-focused predictions via pessimistic bilevel optimization: a computational study [0.7499722271664147]
最適化パラメータの不確かさは、重要かつ長年にわたる課題である。
予測モデルを構築して,それを用いた意思決定の文言的指標を測定します。
トラクタビリティを実現するために,様々な計算手法を示す。
論文 参考訳(メタデータ) (2023-12-29T15:05:00Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - PyEPO: A PyTorch-based End-to-End Predict-then-Optimize Library for
Linear and Integer Programming [9.764407462807588]
我々はPythonのPyTorchベースのエンドツーエンド予測最適化ライブラリであるPyEPOパッケージを提示する。
PyEPOは、予測対象関数係数を持つ線形および整数プログラミングのための最初の汎用ツールである。
論文 参考訳(メタデータ) (2022-06-28T18:33:55Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文 参考訳(メタデータ) (2020-08-21T08:46:36Z) - Regression with reject option and application to kNN [0.0]
我々は、このフレームワークをrejectオプションによる回帰として、rejectオプションによる分類の拡張として参照する。
2つのデータセットを含む最適規則を半教師付きで推定する手法を提案する。
その結果、リジェクションオプションを持つ予測器は、リスクとリジェクションレートの両方の観点から、リジェクションオプションを持つ最適予測器とほぼ同等であることが示された。
論文 参考訳(メタデータ) (2020-06-30T08:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。