論文の概要: Token-Driven GammaTune: Adaptive Calibration for Enhanced Speculative Decoding
- arxiv url: http://arxiv.org/abs/2504.00030v2
- Date: Thu, 03 Apr 2025 12:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:31.453182
- Title: Token-Driven GammaTune: Adaptive Calibration for Enhanced Speculative Decoding
- Title(参考訳): Token-Driven GammaTune: 投機的復号化のための適応的校正
- Authors: Aayush Gautam, Susav Shrestha, Narasimha Reddy,
- Abstract要約: 投機的復号化は大きな言語モデル推論を加速させる。
textitGammaTune と textitGammaTune+ を導入し,トークンの受入率に基づいて投機長を動的に調整する学習自由適応アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Speculative decoding accelerates large language model (LLM) inference by using a smaller draft model to propose tokens, which are then verified by a larger target model. However, selecting an optimal speculation length is critical for maximizing speedup while minimizing wasted computation. We introduce \textit{GammaTune} and \textit{GammaTune+}, training-free adaptive algorithms that dynamically adjust speculation length based on token acceptance rates using a heuristic-based switching mechanism. Evaluated on SpecBench across multiple tasks and model pairs, our method outperforms other heuristic-based approaches and fixed-length speculative decoding, achieving an average speedup of 15\% ($\pm$5\%) with \textit{GammaTune} and 16\% ($\pm$3\%) with \textit{GammaTune+}, while reducing performance variance. This makes \textit{GammaTune} a robust and efficient solution for real-world deployment.
- Abstract(参考訳): 投機的復号化は、より小さなドラフトモデルを用いて大きな言語モデル(LLM)推論を加速し、より大きなターゲットモデルによって検証されるトークンを提案する。
しかし、最適投機長の選択は、無駄な計算を最小化しながら、スピードアップを最大化するために重要である。
ヒューリスティックなスイッチング機構を用いて,トークンの受入率に基づいて投機長を動的に調整する訓練自由適応アルゴリズムである,<textit{GammaTune} と \textit{GammaTune+} を紹介する。
SpecBenchを複数のタスクとモデルペアで評価し、提案手法は他のヒューリスティックなアプローチや固定長の投機的デコーディングよりも優れており、平均スピードアップは \textit{GammaTune} で 15\% (\pm$5\%)、および \textit{GammaTune+} で 16\% (\pm$3\%) であり、性能のばらつきを低減している。
これにより、‘textit{GammaTune} は実世界のデプロイのための堅牢で効率的なソリューションになる。
関連論文リスト
- GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。
LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。