論文の概要: SMART: When is it Actually Worth Expanding a Speculative Tree?
- arxiv url: http://arxiv.org/abs/2604.09731v1
- Date: Thu, 09 Apr 2026 13:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.637858
- Title: SMART: When is it Actually Worth Expanding a Speculative Tree?
- Title(参考訳): SMART: 実際に投機木を拡張する価値はいつあるのか?
- Authors: Lifu Wang, Pan Zhou,
- Abstract要約: ツリーベースの投機的復号化は、分岐したツリードラフトトークンを単一のターゲットモデルフォワードパスで検証することにより、自己回帰生成を加速する。
既存の方法では、重要な効率パラドックスを無視しながら、受理トークン数のトークンレベル確率の最大化が優先されている」。
本稿では,実行木構築のためのシステム対応限界解析フレームワークSMARTを提案する。
- 参考スコア(独自算出の注目度): 26.986851887229054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tree-based speculative decoding accelerates autoregressive generation by verifying a branching tree of draft tokens in a single target-model forward pass. However, existing methods prioritize maximizing token-level likelihood or the number of accepted tokens while ignoring a critical ``efficiency paradox'': the computational overhead of drafting and verifying big trees can grow super-linearly, particularly at scale. This often leads to negative wall-clock speedup when batch sizes increase or hardware saturation limits are reached. To address this, we propose SMART, a system-aware marginal analysis framework for runtime tree construction. SMART reformulates tree expansion as a hardware-aware optimization problem that directly maximizes end-to-end speedup. By applying a principled marginal benefit--cost rule at inference time, SMART expands a node only when its marginal benefit--cost ratio exceeds the tree-level speedup. SMART is training-free and serves as a plug-and-play controller for existing frameworks like MSD and EAGLE. Extensive evaluations across three MLLMs (e.g., LLaVA, Qwen2-VL) and four LLMs (e.g., Llama-3.1, DeepSeek-R1) demonstrate that SMART consistently outperforms state-of-the-art baselines. It delivers an average additional speedup of 20.0\% for MLLMs and 15.4\% for LLMs across compute-bound batching regimes and diverse GPU architectures without performance loss.
- Abstract(参考訳): ツリーベースの投機的復号化は、1つのターゲットモデルフォワードパスでドラフトトークンの分岐木を検証することで自己回帰生成を加速する。
しかし、既存の手法では、重要な『効率パラドックス』を無視しながら、トークンレベルの可能性の最大化や受け入れられたトークンの数を優先している。
これはしばしば、バッチサイズが大きくなるか、ハードウェア飽和限界に達すると、負のウォールクロックのスピードアップにつながる。
そこで本研究では,実行木構築のためのシステム対応限界解析フレームワークSMARTを提案する。
SMARTは、木の拡大をハードウェア対応最適化問題として再定義し、エンドツーエンドのスピードアップを直接最大化する。
SMARTは、原則化された限界利得-コストルールを推論時に適用することにより、その限界利得-コスト比がツリーレベルのスピードアップを超える場合にのみノードを拡張する。
SMARTはトレーニングフリーで、MSDやEAGLEといった既存のフレームワークのプラグアンドプレイコントローラとして機能する。
3つのMLLM(eg , LLaVA, Qwen2-VL)と4つのLSM(eg , Llama-3.1, DeepSeek-R1)の広範な評価は、SMARTが一貫して最先端のベースラインを上回っていることを示している。
MLLMでは平均20.0\%、計算バウンドバッチ方式では15.4\%、GPUアーキテクチャでは性能が低下しない。
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators [7.020725160596732]
STATICは、ハードウェアアクセラレータ上で生成的検索を行うための、効率的でスケーラブルな制約付き復号法である。
我々はSTATICを数十億のユーザを対象とした大規模産業用ビデオレコメンデーションプラットフォームにデプロイする。
論文 参考訳(メタデータ) (2026-02-26T06:00:56Z) - Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding [49.16776388429616]
Yggdrasilは、コンテキスト対応のツリードラフトとコンパイラフレンドリな実行を通じて、レイテンシ最適化の投機的デコーディングを可能にするシステムである。
Yggdrasil は未修正の LLM をサポートし、複数のハードウェア構成で最先端のベースラインを最大3.98倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-12-29T20:51:38Z) - Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining [34.97996720624093]
トークンから専門家へのマッピングを動的に再ルーティングするフレームワークを導入し、MoEレイテンシを低くする。
バッチサイズが16ドルであるQwen3-30BおよびQwen3-235Bモデルについて評価を行った。
論文 参考訳(メタデータ) (2025-11-04T04:00:20Z) - Chain-in-Tree: Back to Sequential Reasoning in LLM Tree Search [4.12237459236889]
Chain-in-Tree (CiT)は、すべてのステップで拡張するのではなく、検索中にいつ分岐するかを決定するフレームワークである。
GSM8KとMath500のトークン生成、モデル呼び出し、ランタイムの75~85%の削減を実現している。
論文 参考訳(メタデータ) (2025-09-30T06:18:44Z) - Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding [24.681973968208364]
グループツリー最適化(GTO)を導入し、デコード時ツリーポリシーとトレーニングを整合させる。
ドラフトツリーリワードの増加は、受け入れ長とスピードアップを確実に改善することを示す。
GTOは、効率的な大規模言語モデル推論のための実用的で一般的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-26T09:55:35Z) - Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding [40.96405124314983]
拡散LDM (dLLMs) は、最近自己回帰LDM (AR-LLMs) の強力な代替品として登場した。
現在利用可能なオープンソースdLLMは、多くの場合、より低いレートで生成される。
本稿では,dLLM推論を$mathbf2.8-3.1times$で高速化し,モデルの出力分布を確実に保存する投機的復号アルゴリズムであるSpiffyを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:58:21Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [24.04649159686283]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車なしの手法を30%上回り、広く認められた訓練方法さえも25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。