Fugu-MT 論文翻訳(概要): SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths

論文の概要: SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths

arxiv url: http://arxiv.org/abs/2405.19715v2
Date: Fri, 21 Jun 2024 01:01:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 19:07:12.586182
Title: SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths
Title（参考訳）: SpecDec++: 適応候補長による投機的デコーディングの強化
Authors: Kaixuan Huang, Xudong Guo, Mengdi Wang,
Abstract要約: SpecDec++は投機的デコードの拡張版で、ハエの候補長を適応的に決定する。 SpecDec++を実装し,llama-2-chat 7Bと70Bモデルペアに適用する。
参考スコア（独自算出の注目度）: 41.863092939498316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding reduces the inference latency of a target large language model via utilizing a smaller and faster draft model. Its performance depends on a hyperparameter K -- the candidate length, i.e., the number of candidate tokens for the target model to verify in each round. However, previous methods often use simple heuristics to choose K, which may result in sub-optimal performance. We study the choice of the candidate length K and formulate it as a Markov Decision Process. We theoretically show that the optimal policy of this Markov decision process takes the form of a threshold policy, i.e., the current speculation should stop and be verified when the probability of getting a rejection exceeds a threshold value. Motivated by this theory, we propose SpecDec++, an enhanced version of speculative decoding that adaptively determines the candidate length on the fly. We augment the draft model with a trained acceptance prediction head to predict the conditional acceptance probability of the candidate tokens. SpecDec++ will stop the current speculation when the predicted probability that at least one token gets rejected exceeds a threshold. We implement SpecDec++ and apply it to the llama-2-chat 7B & 70B model pair. Our adaptive method achieves a 2.04x speedup on the Alpaca dataset (an additional 7.2% improvement over the baseline speculative decoding). On the GSM8K and HumanEval datasets, our method achieves a 2.26x speedup (9.4% improvement) and 2.23x speedup (11.1% improvement), respectively.
Abstract（参考訳）: 投機的復号化は、より小さくより高速なドラフトモデルを利用することで、ターゲットとする大言語モデルの推論遅延を低減する。その性能は、候補長、すなわち各ラウンドで検証するターゲットモデルの候補トークンの数であるハイパーパラメータKに依存する。しかし、従来の手法ではKを選択するために単純なヒューリスティックスを使用しており、これは準最適性能をもたらす可能性がある。候補長Kの選択について検討し、マルコフ決定過程として定式化する。理論的には、このマルコフ決定過程の最適ポリシーはしきい値ポリシーの形式をとる、すなわち、拒絶される確率がしきい値を超えると、現在の憶測は停止して検証されるべきである。この理論によって動機付けられたSpecDec++は、投機的復号法の拡張版で、ハエの候補長を適応的に決定する。トレーニングされた受入予測ヘッドでドラフトモデルを拡張し、候補トークンの条件付き受入確率を予測する。 SpecDec++は、少なくとも1つのトークンが拒否される確率がしきい値を超えると、現在の憶測を止める。 SpecDec++を実装し,llama-2-chat 7Bと70Bモデルペアに適用する。我々の適応的手法は、Alpacaデータセット上で2.04倍の高速化を実現している(ベースライン投機復号法よりも7.2%改善されている)。 GSM8KとHumanEvalのデータセットでは、それぞれ2.26倍のスピードアップ(9.4%の改善)と2.23倍のスピードアップ(11.1%改善)を達成した。

関連論文リスト

Predictive Analytics for Collaborators Answers, Code Quality, and Dropout on Stack Overflow [5.4414562674321765]
予測モデルの開発にStack Overflowを使用した以前の研究では、しばしば3-5モデルの限られたベンチマークや任意の選択方法が採用されていた。本研究は,ユーザが回答する可能性のある質問数,コード品質違反,ドロップアウト状況など,3つのタスクにまたがる21のアルゴリズムを評価した。
論文参考訳（メタデータ） (2025-06-23T06:23:12Z)
One Sample is Enough to Make Conformal Prediction Robust [53.78604391939934]
共形予測は, 1つのランダムな摂動入力に対して前方通過しても, ある程度の堅牢性が得られることを示す。提案手法は,入力毎に多数のパス(例えば100回程度)を使用するSOTA法と比較して,平均セットサイズが小さいロバストな集合を返す。
論文参考訳（メタデータ） (2025-06-19T19:14:25Z)
AutoJudge: Judge Decoding Without Manual Annotation [10.411318392966358]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化するフレームワークである。ターゲットモデルとドラフトモデルのミスマッチのどれを修正すべきかを,半グレディ探索アルゴリズムを用いて検証する。次に、既存のLLM埋め込みに基づいて軽量な分類器をトレーニングし、推論時にトークンのミスマッチを安全に受け入れることができるように予測する。
論文参考訳（メタデータ） (2025-04-28T17:59:28Z)
Token-Driven GammaTune: Adaptive Calibration for Enhanced Speculative Decoding [0.0]
投機的復号化は大きな言語モデル推論を加速させる。 textitGammaTune と textitGammaTune+ を導入し,トークンの受入率に基づいて投機長を動的に調整する学習自由適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-28T23:41:55Z)
Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文参考訳（メタデータ） (2025-03-07T08:41:53Z)
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文参考訳（メタデータ） (2025-02-10T09:24:06Z)
Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment [25.988070517700848]
自己回帰生成を高速化する手法として投機的復号法が提案されている。 GPT-4oのような強力なドラフトモデルであっても、人間のテキストは高い受け入れ率を達成できないことを示す。私たちは、正しいが一致しない応答を認識するために、検証に適応できるだろうか?
論文参考訳（メタデータ） (2025-01-31T17:09:53Z)
Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。このスキームの繰り返し繰り返しにおける推論の改善を示す。例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文参考訳（メタデータ） (2024-04-30T17:28:05Z)
Decision-focused predictions via pessimistic bilevel optimization: a computational study [0.7499722271664147]
最適化パラメータの不確かさは、重要かつ長年にわたる課題である。予測モデルを構築して,それを用いた意思決定の文言的指標を測定します。トラクタビリティを実現するために,様々な計算手法を示す。
論文参考訳（メタデータ） (2023-12-29T15:05:00Z)
Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文参考訳（メタデータ） (2023-10-11T04:03:42Z)
AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。この問題に対処するためにテスト時適応(TTA)手法が提案されている。本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文参考訳（メタデータ） (2023-04-25T04:23:13Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
PyEPO: A PyTorch-based End-to-End Predict-then-Optimize Library for Linear and Integer Programming [9.764407462807588]
我々はPythonのPyTorchベースのエンドツーエンド予測最適化ライブラリであるPyEPOパッケージを提示する。 PyEPOは、予測対象関数係数を持つ線形および整数プログラミングのための最初の汎用ツールである。
論文参考訳（メタデータ） (2022-06-28T18:33:55Z)
Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文参考訳（メタデータ） (2021-06-07T17:44:49Z)
Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。 EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文参考訳（メタデータ） (2021-01-20T06:18:38Z)
Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。 In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文参考訳（メタデータ） (2020-08-21T08:46:36Z)
Regression with reject option and application to kNN [0.0]
我々は、このフレームワークをrejectオプションによる回帰として、rejectオプションによる分類の拡張として参照する。 2つのデータセットを含む最適規則を半教師付きで推定する手法を提案する。その結果、リジェクションオプションを持つ予測器は、リスクとリジェクションレートの両方の観点から、リジェクションオプションを持つ最適予測器とほぼ同等であることが示された。
論文参考訳（メタデータ） (2020-06-30T08:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。