論文の概要: TALON: Confidence-Aware Speculative Decoding with Adaptive Token Trees
- arxiv url: http://arxiv.org/abs/2601.07353v1
- Date: Mon, 12 Jan 2026 09:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.314457
- Title: TALON: Confidence-Aware Speculative Decoding with Adaptive Token Trees
- Title(参考訳): TALON: 適応型トークンツリーによる信頼度を考慮した投機的デコーディング
- Authors: Tianyu Liu, Qitan Lv, Yuhao Shen, Xiao Sun, Xiaoyan Sun,
- Abstract要約: 投機的復号化(SD)は、出力品質を犠牲にすることなくLPM推論を高速化する標準技術となっている。
我々は、既存のツリーベースの手法にプラグイン可能な、トレーニングフリーで予算駆動の適応木拡張フレームワークであるTALONを紹介した。
TALONは最先端のイーグル3より一貫して優れており、自動回帰復号よりも最大5.16倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 18.53532655905144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding (SD) has become a standard technique for accelerating LLM inference without sacrificing output quality. Recent advances in speculative decoding have shifted from sequential chain-based drafting to tree-structured generation, where the draft model constructs a tree of candidate tokens to explore multiple possible drafts in parallel. However, existing tree-based SD methods typically build a fixed-width, fixed-depth draft tree, which fails to adapt to the varying difficulty of tokens and contexts. As a result, the draft model cannot dynamically adjust the tree structure to early stop on difficult tokens and extend generation for simple ones. To address these challenges, we introduce TALON, a training-free, budget-driven adaptive tree expansion framework that can be plugged into existing tree-based methods. Unlike static methods, TALON constructs the draft tree iteratively until a fixed token budget is met, using a hybrid expansion strategy that adaptively allocates the node budget to each layer of the draft tree. This framework naturally shapes the draft tree into a "deep-and-narrow" form for deterministic contexts and a "shallow-and-wide" form for uncertain branches, effectively optimizing the trade-off between exploration width and generation depth under a given budget. Extensive experiments across 5 models and 6 datasets demonstrate that TALON consistently outperforms state-of-the-art EAGLE-3, achieving up to 5.16x end-to-end speedup over auto-regressive decoding.
- Abstract(参考訳): 投機的復号化(SD)は、出力品質を犠牲にすることなくLPM推論を高速化する標準技術となっている。
投機的復号化の最近の進歩は、逐次連鎖に基づく起草から木構造生成へと移行し、そこではドラフトモデルが候補トークンのツリーを構築し、複数の可能な起草を並行して探索する。
しかし、既存のツリーベースのSDメソッドは通常、固定幅、固定深さのドラフトツリーを構築するが、トークンやコンテキストのさまざまな難しさに対応できない。
結果として、ドラフトモデルはツリー構造を動的に調整し、難しいトークンを早期に停止させ、単純なトークンの生成を拡張することはできない。
これらの課題に対処するために,既存のツリーベース手法にプラグイン可能な,トレーニングフリーで予算駆動型の適応木拡張フレームワークであるTALONを紹介した。
静的メソッドとは異なり、TALONは、固定トークン予算が満たされるまで、ドラフトツリーを反復的に構築し、ドラフトツリーの各レイヤにノード予算を適応的に割り当てるハイブリッド拡張戦略を使用する。
この枠組みは自然に草稿を決定論的文脈のための「深狭」形式と不確実な枝のための「浅狭」形式に形成し、与えられた予算の下で探索幅と生成深度の間のトレードオフを効果的に最適化する。
5つのモデルと6つのデータセットにわたる大規模な実験により、TALONは最先端のERGLE-3を一貫して上回り、自動回帰復号よりも最大5.16倍のスピードアップを達成した。
関連論文リスト
- Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees [50.230925890958936]
本稿では,隣接するトークン状態と先行受入率を活用することで,ドラフトツリーの深さと幅を調整できる適応型動的ドラフトツリーを提案する。
ADT-Treeは、それぞれ3.13xと3.05xのスピードアップを実現し、LANTERNのような緩やかなサンプリング手法とシームレスに統合する。
論文 参考訳(メタデータ) (2025-12-26T04:45:49Z) - ProtInvTree: Deliberate Protein Inverse Folding with Reward-guided Tree Search [77.55575655986252]
ProtInvTreeはタンパク質逆フォールディングのための報酬誘導ツリー検索フレームワークである。
シークエンス生成は、意図的に、ステップワイズな意思決定プロセスとして再構成される。
検索深度と幅を広げて、再トレーニングすることなく、フレキシブルなテストタイムスケーリングをサポートする。
論文 参考訳(メタデータ) (2025-06-01T09:34:20Z) - Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization [68.07464514094299]
既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。
形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。
当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
論文 参考訳(メタデータ) (2025-04-03T17:57:52Z) - Learning Decision Trees as Amortized Structure Inference [59.65621207449269]
本稿では,予測決定木アンサンブルを学習するためのハイブリッドアモータイズされた構造推論手法を提案する。
提案手法であるDT-GFNは,標準分類ベンチマークにおける最先端決定木やディープラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T07:05:07Z) - OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。
既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。
我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文 参考訳(メタデータ) (2024-06-25T04:45:53Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。