論文の概要: Draft-Conditioned Constrained Decoding for Structured Generation in LLMs
- arxiv url: http://arxiv.org/abs/2603.03305v1
- Date: Sun, 08 Feb 2026 03:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.131409
- Title: Draft-Conditioned Constrained Decoding for Structured Generation in LLMs
- Title(参考訳): LLMにおける構造生成のためのドラフトコンディション制約デコード
- Authors: Avinash Reddy, Thayne T. Walker, James S. Ide, Amrit Singh Bedi,
- Abstract要約: 制約デコーディングは、モデルが有効な継続に低確率質量を割り当てたときに生成を歪めることができる。
本稿では,構造的強制からセマンティックプランニングを分離する訓練自由推論手法であるemphDraft-Conditioned Constrained Decoding (DCCD)を提案する。
我々は,KLプロジェクションビューを用いてDCCDを解析し,ドラフト条件が実現可能な質量を増大させ,ハード制約による累積的な「投射税」を減少させることを示した。
- 参考スコア(独自算出の注目度): 11.309525632171217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to generate executable outputs, JSON objects, and API calls, where a single syntax error can make the output unusable. Constrained decoding enforces validity token-by-token via masking and renormalization, but it can distort generation when the model assigns low probability mass to valid continuations, pushing decoding toward locally valid yet semantically incorrect trajectories. We propose \emph{Draft-Conditioned Constrained Decoding (DCCD)}, a simple two-step, training-free inference procedure that decouples semantic planning from structural enforcement: an unconstrained draft is generated first, and constrained decoding is then applied, conditioned on this draft, to guarantee validity. We analyze DCCD through a KL-projection view, showing that draft conditioning increases feasible mass and reduces the cumulative "projection tax" induced by hard constraints, with an optional best-of-$K$ draft selection. Across structured reasoning benchmarks, DCCD improves strict structured accuracy by up to +24 percentage points over standard constrained decoding (e.g., 15.2\% to 39.0\% on GSM8K with a 1B model), and enables smaller model pairs to match or exceed much larger constrained baselines, yielding substantial gains in parameter efficiency.
- Abstract(参考訳): 大きな言語モデル(LLM)は、実行可能な出力、JSONオブジェクト、API呼び出しを生成するために、ますます使われています。
制約付き復号法はマスキングと再正規化によって正当性トークン・バイ・トーケンを強制するが、モデルが低確率質量を有効継続に割り当てた場合には生成を歪め、復号法は局所的に有効だが意味的に正しくない軌道へと押し下げる。
本稿では,制約のないドラフトを最初に生成し,制約付きデコーディングをこのドラフトに適用し,その妥当性を保証するための,単純な2ステップのトレーニング不要推論手順である 'emph{Draft-Conditioned Constrained Decoding (DCCD) を提案する。
我々は,KLプロジェクションビューを用いてDCCDを解析し,ドラフト条件が実現可能な質量を増大させ,厳密な制約によって引き起こされる累積的な「投射税」を減らすことを示し,オプションとして$K$のドラフト選択を行う。
構造化推論ベンチマーク全体では、DCCDは標準制約付き復号法(例えば、GSM8Kでは1Bモデルで15.2\%から39.0\%)よりも最大で+24パーセンテージの厳密な構造化精度を向上し、より小さなモデルペアがより大きな制約付きベースラインに適合または超えることを可能にし、パラメータ効率の大幅な向上をもたらす。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。
FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文 参考訳(メタデータ) (2025-09-30T21:28:04Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。