論文の概要: TABED: Test-Time Adaptive Ensemble Drafting for Robust Speculative Decoding in LVLMs
- arxiv url: http://arxiv.org/abs/2601.20357v1
- Date: Wed, 28 Jan 2026 08:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.836674
- Title: TABED: Test-Time Adaptive Ensemble Drafting for Robust Speculative Decoding in LVLMs
- Title(参考訳): TABED:LVLMにおけるロバストな投機デコードのためのテスト時間適応型アンサンブル描画
- Authors: Minjae Lee, Wonjun Kang, Byeongkeun Ahn, Christian Classen, Kevin Galim, Seunghyuk Oh, Minghao Yan, Hyung Il Koo, Kangwook Lee,
- Abstract要約: 本研究では,大規模視覚言語モデルに対するTABED(Test-time Adaptive Batched Ensemble Drafting)を提案する。
TABEDは、SD設定で利用可能な過去の真実からの逸脱を利用して、バッチ推論によって得られた複数のドラフトをアンサンブルする。
自動回帰復号法よりも1.74倍のロバストなウォールタイム・スピードアップを実現し、単一起草法よりも5%改善した。
- 参考スコア(独自算出の注目度): 14.030784220154151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding (SD) has proven effective for accelerating LLM inference by quickly generating draft tokens and verifying them in parallel. However, SD remains largely unexplored for Large Vision-Language Models (LVLMs), which extend LLMs to process both image and text prompts. To address this gap, we benchmark existing inference methods with small draft models on 11 datasets across diverse input scenarios and observe scenario-specific performance fluctuations. Motivated by these findings, we propose Test-time Adaptive Batched Ensemble Drafting (TABED), which dynamically ensembles multiple drafts obtained via batch inference by leveraging deviations from past ground truths available in the SD setting. The dynamic ensemble method achieves an average robust walltime speedup of 1.74x over autoregressive decoding and a 5% improvement over single drafting methods, while remaining training-free and keeping ensembling costs negligible through parameter sharing. With its plug-and-play compatibility, we further enhance TABED by integrating advanced verification and alternative drafting methods. Code and custom-trained models are available at https://github.com/furiosa-ai/TABED.
- Abstract(参考訳): 投機的復号法 (SD) は, ドラフトトークンを高速に生成し, 並列に検証することにより, LLM推論の高速化に有効であることが証明されている。
しかし、SDはLVLM(Large Vision-Language Models)のためにほとんど探索されていない。
このギャップに対処するために、我々は、さまざまな入力シナリオにまたがる11のデータセットの小さなドラフトモデルで既存の推論手法をベンチマークし、シナリオ固有のパフォーマンス変動を観察する。
これらの知見に触発されたTABED(Test-time Adaptive Batched Ensemble Drafting)を提案する。
動的アンサンブル法は, 自己回帰復号法よりも1.74倍, 単一起草法より5%向上し, トレーニング不要であり, パラメータ共有によるアンサンブルコストは無視できる。
プラグ・アンド・プレイの互換性により,先進的な検証手法と代替案作成手法を統合することで,TABEDをさらに強化する。
コードとカスタムトレーニングモデルはhttps://github.com/furiosa-ai/TABED.comで公開されている。
関連論文リスト
- DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。