論文の概要: Multi-Draft Speculative Sampling: Canonical Architectures and Theoretical Limits
- arxiv url: http://arxiv.org/abs/2410.18234v1
- Date: Wed, 23 Oct 2024 19:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:36.067792
- Title: Multi-Draft Speculative Sampling: Canonical Architectures and Theoretical Limits
- Title(参考訳): マルチドラフト投機サンプリング:標準アーキテクチャと理論的限界
- Authors: Ashish Khisti, M. Reza Ebrahimi, Hassan Dbouk, Arash Behboodi, Roland Memisevic, Christos Louizos,
- Abstract要約: 提案手法は,異なるドラフトモデルから独立して提案シーケンスをサンプリングするマルチドラフト・投機的サンプリングについて検討する。
最適スキームを2段階の解に分解できることを示す。
- 参考スコア(独自算出の注目度): 26.220189807865548
- License:
- Abstract: We consider multi-draft speculative sampling, where the proposal sequences are sampled independently from different draft models. At each step, a token-level draft selection scheme takes a list of valid tokens as input and produces an output token whose distribution matches that of the target model. Previous works have demonstrated that the optimal scheme (which maximizes the probability of accepting one of the input tokens) can be cast as a solution to a linear program. In this work we show that the optimal scheme can be decomposed into a two-step solution: in the first step an importance sampling (IS) type scheme is used to select one intermediate token; in the second step (single-draft) speculative sampling is applied to generate the output token. For the case of two identical draft models we further 1) establish a necessary and sufficient condition on the distributions of the target and draft models for the acceptance probability to equal one and 2) provide an explicit expression for the optimal acceptance probability. Our theoretical analysis also motives a new class of token-level selection scheme based on weighted importance sampling. Our experimental results demonstrate consistent improvements in the achievable block efficiency and token rates over baseline schemes in a number of scenarios.
- Abstract(参考訳): 提案手法は,異なるドラフトモデルから独立して提案シーケンスをサンプリングするマルチドラフト・投機的サンプリングについて検討する。
各ステップにおいて、トークンレベルのドラフト選択スキームは有効なトークンのリストを入力として取り、その分布がターゲットモデルのものと一致する出力トークンを生成する。
従来の研究は、最適スキーム(入力トークンの1つを受け入れる確率を最大化する)が線形プログラムの解としてキャストできることを示してきた。
本研究は、最適スキームを2段階の解に分解できることを示し、第1段階において、重要サンプリング(IS)型スキームを用いて1つの中間トークンを選択し、第2段階(単一ドラフト)の投機的サンプリングを適用して出力トークンを生成する。
2つの同一のドラフトモデルの場合、さらに検討する
1)受理確率を等しくするために、目標及びドラフトモデルの分布に必要かつ十分な条件を定めること。
2) 最適受理確率の明示的な表現を提供する。
我々の理論分析は、重み付けされた重要度サンプリングに基づく新しい種類のトークンレベル選択スキームを動機付けている。
実験の結果,多くのシナリオにおいて,達成可能なブロック効率とベースラインスキームよりもトークンレートが一貫した改善を示した。
関連論文リスト
- Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference [35.730941605490194]
大規模言語モデル(LLM)は多くの実世界のタスクで優れたパフォーマンスを示している。
投機的復号化は有望な解決策として現れ、より小さな補助モデルを利用して将来のトークンをドラフトしている。
本稿では,ビームサンプリングによる投機的復号化の新たな統合について検討する。
論文 参考訳(メタデータ) (2024-09-25T02:20:42Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Domain Generalization via Rationale Invariance [70.32415695574555]
本稿では,未確認環境においてもロバストな結果の維持を伴う領域一般化の課題を緩和する新たな視点を提供する。
本稿では,最終結果に対する要素的貢献を決定の根拠として扱い,各試料の根拠を行列として表現することを提案する。
提案手法は, 単純性に拘わらず, 様々なデータセット間で競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-08-22T03:31:40Z) - Optimizing model-agnostic Random Subspace ensembles [5.680512932725364]
教師あり学習のためのモデルに依存しないアンサンブルアプローチを提案する。
提案手法は、ランダム部分空間アプローチのパラメトリックバージョンを用いてモデルのアンサンブルを学習することとを交互に行う。
シミュレーションおよび実世界のデータセット上で,予測と特徴ランキングの両面で,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-07T13:58:23Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。