論文の概要: Goose: Anisotropic Speculation Trees for Training-Free Speculative Decoding
- arxiv url: http://arxiv.org/abs/2604.02047v1
- Date: Thu, 02 Apr 2026 13:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.829327
- Title: Goose: Anisotropic Speculation Trees for Training-Free Speculative Decoding
- Title(参考訳): Goose: トレーニング不要な投機復号のための異方性投機木
- Authors: Tao Jin, Phuong Minh Nguyen, Naoya Inoue,
- Abstract要約: 投機的復号化は、複数の候補トークンを起草し、1つのフォワードパスで検証することで、大きな言語モデル推論を加速させる。
既存のトレーニングフリーなメソッドは、単一のトークンソースからドラフトされ、起源の候補品質を区別することなく、ツリーを形作っている。
我々は、入力コンテキストからコピーされたn-gramマッチングと、先行パスからの統計的予測の2つの一般的なトレーニングフリートークンソースが、受入率において劇的に異なることを観察した。
ステップ毎に受理されるトークンの数は、どちらのソースも単独で使用するものと同じくらいであることを示す。
- 参考スコア(独自算出の注目度): 13.709230136542594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates large language model inference by drafting multiple candidate tokens and verifying them in a single forward pass. Candidates are organized as a tree: deeper trees accept more tokens per step, but adding depth requires sacrificing breadth (fallback options) under a fixed verification budget. Existing training-free methods draft from a single token source and shape their trees without distinguishing candidate quality across origins. We observe that two common training-free token sources - n-gram matches copied from the input context, and statistical predictions from prior forward passes - differ dramatically in acceptance rate (~6x median gap, range 2-18x across five models and five benchmarks). We prove that when such a quality gap exists, the optimal tree is anisotropic (asymmetric): reliable tokens should form a deep chain while unreliable tokens spread as wide branches, breaking through the depth limit of balanced trees. We realize this structure in GOOSE, a training-free framework that builds an adaptive spine tree - a deep chain of high-acceptance context-matched tokens with wide branches of low-acceptance alternatives at each node. We prove that the number of tokens accepted per step is at least as large as that of either source used alone. On five LLMs (7B-33B) and five benchmarks, GOOSE achieves 1.9-4.3x lossless speedup, outperforming balanced-tree baselines by 12-33% under the same budget.
- Abstract(参考訳): 投機的復号化は、複数の候補トークンを起草し、1つのフォワードパスで検証することで、大きな言語モデル推論を加速させる。
深い木はステップごとにより多くのトークンを受け入れますが、深さを追加するには、固定された検証予算の下で幅(フォールバックオプション)を犠牲にする必要があります。
既存のトレーニングフリーなメソッドは、単一のトークンソースからドラフトされ、起源の候補品質を区別することなく、ツリーを形作っている。
入力コンテキストからコピーしたn-gramマッチと先行パスからの統計的予測の2つの一般的なトレーニングフリートークンソースは、受入率で劇的に異なる(中央値の差が6倍、モデル5とベンチマーク5で2-18倍)。
このような品質ギャップが存在する場合、最適木は異方性(非対称)であることが証明される: 信頼できるトークンは深い連鎖を形成し、信頼できないトークンは広い分岐として広がり、バランスの取れた木の深さ限界を突破する。
この構造はGOOSEにおいて実現されている。これは適応型スピーンツリー(各ノードにローアクセプタンス代替品の広い枝を持つ高アクセプタンスコンテキスト整合トークンのディープチェーン)を構築するトレーニングフリーフレームワークである。
ステップ毎に受理されるトークンの数は、どちらのソースも単独で使用するものと同じくらいであることを示す。
5つのLSM(7B-33B)と5つのベンチマークで、GOOSEは1.9-4.3倍の損失のないスピードアップを達成した。
関連論文リスト
- TALON: Confidence-Aware Speculative Decoding with Adaptive Token Trees [18.53532655905144]
投機的復号化(SD)は、出力品質を犠牲にすることなくLPM推論を高速化する標準技術となっている。
我々は、既存のツリーベースの手法にプラグイン可能な、トレーニングフリーで予算駆動の適応木拡張フレームワークであるTALONを紹介した。
TALONは最先端のイーグル3より一貫して優れており、自動回帰復号よりも最大5.16倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-01-12T09:26:45Z) - Entropy-Tree: Tree-Based Decoding with Entropy-Guided Exploration [52.52685988964061]
Entropy-Treeは、分岐決定の信号としてエントロピーを利用するツリーベースのデコード手法である。
単一の復号処理において、効率的な構造化された探索と信頼性の高い不確実性推定を統一する。
論文 参考訳(メタデータ) (2026-01-02T07:14:05Z) - Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees [50.230925890958936]
本稿では,隣接するトークン状態と先行受入率を活用することで,ドラフトツリーの深さと幅を調整できる適応型動的ドラフトツリーを提案する。
ADT-Treeは、それぞれ3.13xと3.05xのスピードアップを実現し、LANTERNのような緩やかなサンプリング手法とシームレスに統合する。
論文 参考訳(メタデータ) (2025-12-26T04:45:49Z) - C2T: A Classifier-Based Tree Construction Method in Speculative Decoding [9.663330370149428]
投機的復号法は、しばしばトークンツリーの構築や候補トークンの検証において非効率に直面する。
トークンツリーを動的に生成・生成するための軽量な分類器C2Tを提案する。
論文 参考訳(メタデータ) (2025-02-19T11:57:02Z) - OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。
既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。
我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文 参考訳(メタデータ) (2024-06-25T04:45:53Z) - Tree Cross Attention [59.8891512435847]
Tree Cross Attention (TCA) は、Cross Attentionに基づくモジュールで、パラメータ $mathcalO(log(N))$ のトークン数からのみ情報を取得する。
さまざまな分類や不確実性回帰タスクに対して,TCAはクロスアテンションに匹敵する性能を示し,トークン効率は著しく向上した。
論文 参考訳(メタデータ) (2023-09-29T16:50:23Z) - An Efficient Adversarial Attack for Tree Ensembles [91.05779257472675]
傾斜促進決定木(DT)や無作為林(RF)などの木に基づくアンサンブルに対する敵対的攻撃
提案手法は,従来のMILP (Mixed-integer linear programming) よりも数千倍高速であることを示す。
私たちのコードはhttps://chong-z/tree-ensemble- attackで利用可能です。
論文 参考訳(メタデータ) (2020-10-22T10:59:49Z) - On $\ell_p$-norm Robustness of Ensemble Stumps and Trees [83.81523991945018]
我々は,アンサンブルスタンプの音響検証のための効率的なプログラムベースアルゴリズムを開発した。
我々は,アンサンブル・スタンプや木を訓練するための最初の認証された防御法を,$ell_p$ノルム摂動に関して実証した。
論文 参考訳(メタデータ) (2020-08-20T03:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。