論文の概要: Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling
- arxiv url: http://arxiv.org/abs/2604.04987v1
- Date: Sun, 05 Apr 2026 03:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.384359
- Title: Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling
- Title(参考訳): Cactus: 制約付きアクセプタンス投機サンプリングによる自動回帰デコーディングの高速化
- Authors: Yongchang Hao, Lili Mou,
- Abstract要約: 投機的サンプリング(SpS)は,自動回帰型大言語モデルの復号スループット向上に成功している。
検証器分布から制御された発散を保証する手法であるCactus (Constrained acceptance Speculative sample)を提案する。
- 参考スコア(独自算出の注目度): 29.45621080100186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative sampling (SpS) has been successful in accelerating the decoding throughput of auto-regressive large language models by leveraging smaller draft models. SpS strictly enforces the generated distribution to match that of the verifier LLM. This is unnecessarily restrictive as slight variations of the verifier's distribution, such as sampling with top-$k$ or temperature, would also be acceptable. Typical acceptance sampling (TAS) alleviates this issue by accepting more tokens using entropy-based heuristics. However, this approach distorts the verifier distribution, potentially degrading output quality when the verifier encodes critical information. In this work, we formalize the speculative sampling algorithm through the lens of constrained optimization. Based on this formulation, we propose Cactus (constrained acceptance speculative sampling), a method that guarantees controlled divergence from the verifier distribution and increasing acceptance rates. Empirical results across a wide range of benchmarks confirm the effectiveness of our approach.
- Abstract(参考訳): 投機的サンプリング(SpS)は,より小さなドラフトモデルを活用することで,自動回帰型大規模言語モデルの復号スループットを向上することに成功した。
SpSは、生成した分布を厳格に強制し、検証器LLMの分布と一致する。
これは必要以上に制限され、検証者の分布のわずかなバリエーション、例えばトップ$k$または温度のサンプリングも許容される。
典型的な受け入れサンプリング(TAS)は、エントロピーベースのヒューリスティックを使ってより多くのトークンを受け入れることでこの問題を軽減する。
しかし、本手法は検証器分布を歪曲し、検証器が臨界情報を符号化する際に出力品質を劣化させる可能性がある。
本研究では,制約付き最適化レンズを用いて投機的サンプリングアルゴリズムを定式化する。
この定式化に基づいて,検証器分布から制御された発散を保証し,受入率を増加させる手法であるCactus(Constrained acceptance Speculative sample)を提案する。
幅広いベンチマークによる実験結果から,本手法の有効性が確認された。
関連論文リスト
- Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models [52.61023005303122]
低信頼度再マッシングは、誘導配列分布のエントロピーを制約しながら、品質のプロキシを改善することを示す。
我々は,デコード時に,この分布をほぼ対象とする簡易なインディペンデント・ハスティングス・サンプリング器を開発した。
論文 参考訳(メタデータ) (2026-04-01T02:01:30Z) - Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models [2.4065240342323384]
本稿では, 適応型リジェクションサンプリング(EARS)について紹介する。
EARSは、ターゲットモデルの予測不確かさを1-max(P_target)として組み込むことで、受入閾値を動的に調整する。
投機的復号化の効率を大幅に向上させ、18.12%のスループット向上を実現し、GSM8Kベンチマークでは0.84%の精度低下を無視できる。
論文 参考訳(メタデータ) (2025-12-15T11:08:56Z) - Constrained Adaptive Rejection Sampling [27.579645342312674]
言語モデル(LM)は、生成した出力が厳密な意味的制約や構文的制約を満たす必要があるアプリケーションでますます使われている。
既存の制約付き生成へのアプローチは、スペクトルに沿って低下する: 欲求的制約付き復号法は、復号時の有効性を強制するが、LMの分布を歪ませる。
本稿では、分布歪みを伴わないRSの試料効率を厳密に改善するアプローチである、適応型サンプリング(CARS)を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:17:26Z) - Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - Conditional Sampling of Variational Autoencoders via Iterated
Approximate Ancestral Sampling [7.357511266926065]
変分オートエンコーダ(VAE)の条件付きサンプリングは、データ計算の欠如など、様々なアプリケーションで必要とされるが、計算上は難解である。
基本的条件付きサンプリングはMetropolis-within-Gibbs (MWG)である
論文 参考訳(メタデータ) (2023-08-17T16:08:18Z) - Preconditioned Score-based Generative Models [45.66744783988319]
直感的な加速度法はサンプリングの繰り返しを減らし、しかしながら重大な性能劣化を引き起こす。
本稿では,行列プレコンディショニングを利用して上記の問題を緩和する新しいプリコンディショニング拡散サンプリング法を提案する。
PDSはSGMの出力分布を保ち、元のサンプリングプロセスに系統的バイアスを引き起こすリスクはない。
論文 参考訳(メタデータ) (2023-02-13T16:30:53Z) - DensePure: Understanding Diffusion Models towards Adversarial Robustness [110.84015494617528]
拡散モデルの特性を解析し,それらが証明された堅牢性を高める条件を確立する。
事前訓練されたモデル(すなわち分類器)の信頼性向上を目的とした新しいDensePure法を提案する。
このロバストな領域は多重凸集合の和であり、以前の研究で特定されたロバストな領域よりもはるかに大きい可能性が示されている。
論文 参考訳(メタデータ) (2022-11-01T08:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。