論文の概要: SAGE: Accelerating Vision-Language Models via Entropy-Guided Adaptive Speculative Decoding
- arxiv url: http://arxiv.org/abs/2602.00523v1
- Date: Sat, 31 Jan 2026 05:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.23476
- Title: SAGE: Accelerating Vision-Language Models via Entropy-Guided Adaptive Speculative Decoding
- Title(参考訳): SAGE: Entropy-Guided Adaptive Speculative Decodingによるビジョンランゲージモデルの高速化
- Authors: Yujia Tong, Tian Zhang, Yunyang Wan, Kaiwei Lin, Jingling Yuan, Chuang Hu,
- Abstract要約: 投機的復号化は、視覚言語モデルにおける推論を加速するための有望なアプローチとして現れている。
既存のメソッドはデコードプロセスを通して固定されている静的ツリー構造に依存している。
実時間予測の不確実性に基づいて投機木構造を動的に調整する新しいフレームワークであるSAGEを提案する。
- 参考スコア(独自算出の注目度): 15.734450444255787
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speculative decoding has emerged as a promising approach to accelerate inference in vision-language models (VLMs) by enabling parallel verification of multiple draft tokens. However, existing methods rely on static tree structures that remain fixed throughout the decoding process, failing to adapt to the varying prediction difficulty across generation steps. This leads to suboptimal acceptance lengths and limited speedup. In this paper, we propose SAGE, a novel framework that dynamically adjusts the speculation tree structure based on real-time prediction uncertainty. Our key insight is that output entropy serves as a natural confidence indicator with strong temporal correlation across decoding steps. SAGE constructs deeper-narrower trees for high-confidence predictions to maximize speculation depth, and shallower-wider trees for uncertain predictions to diversify exploration. SAGE improves acceptance lengths and achieves faster acceleration compared to static tree baselines. Experiments on multiple benchmarks demonstrate the effectiveness of SAGE: without any loss in output quality, it delivers up to $3.36\times$ decoding speedup for LLaVA-OneVision-72B and $3.18\times$ for Qwen2.5-VL-72B.
- Abstract(参考訳): 投機的復号化は、複数のドラフトトークンの並列検証を可能にすることで、視覚言語モデル(VLM)の推論を加速するための有望なアプローチとして登場した。
しかし、既存の手法はデコードプロセスを通して固定された静的ツリー構造に依存しており、生成ステップ間で異なる予測困難に適応できない。
これにより、最適以下の受容長と制限されたスピードアップにつながる。
本稿では,リアルタイム予測の不確実性に基づいて投機木構造を動的に調整する新しいフレームワークであるSAGEを提案する。
我々の重要な洞察は、出力エントロピーが、デコードステップ間で強い時間的相関を持つ自然な信頼度指標となることである。
セージは、投機深度を最大化するために、高信頼の予測のためにより狭い木を構築し、不確実な予測のためにより浅い広さのツリーを構築し、探索を多様化する。
SAGEは受け入れ長を改善し、静的ツリーベースラインよりも高速な高速化を実現している。
出力品質を損なうことなく、LLaVA-OneVision-72Bで最大$3.36\times$デコードスピードアップ、Qwen2.5-VL-72Bで$3.18\times$を提供する。
関連論文リスト
- Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees [50.230925890958936]
本稿では,隣接するトークン状態と先行受入率を活用することで,ドラフトツリーの深さと幅を調整できる適応型動的ドラフトツリーを提案する。
ADT-Treeは、それぞれ3.13xと3.05xのスピードアップを実現し、LANTERNのような緩やかなサンプリング手法とシームレスに統合する。
論文 参考訳(メタデータ) (2025-12-26T04:45:49Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - LANTERN++: Enhancing Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models [31.1717739483817]
LANTERN++は、静的ツリーのドラフトと、調整された緩和された受け入れ条件を統合するフレームワークである。
最先端のビジュアルARモデルの実験では、LANTERN++は推論を著しく加速し、標準的なARデコーディングよりも最大$mathbftimes 2.56$のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-02-10T11:05:18Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。
既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。
我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文 参考訳(メタデータ) (2024-06-25T04:45:53Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。