論文の概要: FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling
- arxiv url: http://arxiv.org/abs/2502.14856v1
- Date: Thu, 20 Feb 2025 18:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:08.950730
- Title: FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling
- Title(参考訳): FR-Spec:周波数Ranked Speculative Smplingによる大語彙言語モデルの高速化
- Authors: Weilin Zhao, Tengyu Pan, Xu Han, Yudi Zhang, Ao Sun, Yuxiang Huang, Kaihuo Zhang, Weilun Zhao, Yuxuan Li, Jianyong Wang, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
- 参考スコア(独自算出の注目度): 59.8051705468084
- License:
- Abstract: Speculative sampling has emerged as an important technique for accelerating the auto-regressive generation process of large language models (LLMs) by utilizing a draft-then-verify mechanism to produce multiple tokens per forward pass. While state-of-the-art speculative sampling methods use only a single layer and a language modeling (LM) head as the draft model to achieve impressive layer compression, their efficiency gains are substantially reduced for large-vocabulary LLMs, such as Llama-3-8B with a vocabulary of 128k tokens. To address this, we present FR-Spec, a frequency-ranked speculative sampling framework that optimizes draft candidate selection through vocabulary space compression. By constraining the draft search to a frequency-prioritized token subset, our method reduces LM Head computation overhead by 75% while ensuring the equivalence of the final output distribution. Experiments across multiple datasets demonstrate an average of 1.12$\times$ speedup over the state-of-the-art speculative sampling method EAGLE-2.
- Abstract(参考訳): 投機的サンプリングは, 大規模言語モデル (LLM) の自動回帰生成プロセスの高速化のための重要な手法として, ドラフト・then-verify 機構を利用して, 前方通過毎に複数のトークンを生成する手法として登場した。
最先端の投機的サンプリング手法では1つの層と言語モデリング(LM)ヘッドのみを用いて印象的な層圧縮を実現するが、Llama-3-8Bのように128kトークンの語彙を持つ大語彙LLMでは効率が大幅に低下する。
そこで本研究では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
本手法は,周波数優先のトークンサブセットに対するドラフト探索を制限することにより,最終的な出力分布の等価性を確保しつつ,LMヘッドの計算オーバーヘッドを75%削減する。
複数のデータセットにわたる実験では、最先端の投機的サンプリング手法であるEAGLE-2よりも平均1.12$\times$のスピードアップが示されている。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs [4.122612309805664]
大規模言語モデル(LLM)は、各復号ステップにおける語彙上の確率分布から次のトークンをサンプリングしてテキストを生成する。
トップトークンの確率に応じてスケールすることでモデルの信頼度に基づいてサンプリングしきい値を調整する動的トランケーション法である min-p サンプリングを提案する。
我々はGPQA、GSM8K、AlpacaEval Creative Writingなどのベンチマーク実験を行い、min-pサンプリングが生成したテキストの品質と多様性を特に高温で改善することを示した。
論文 参考訳(メタデータ) (2024-07-01T08:37:25Z) - EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty [28.07947754770082]
機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。
機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
論文 参考訳(メタデータ) (2024-01-26T18:59:01Z) - A Block Metropolis-Hastings Sampler for Controllable Energy-based Text
Generation [78.81021361497311]
我々は,大規模言語モデルの反復的プロンプトを通じて,各ステップにおけるシーケンス全体の書き直しを提案する新しいメトロポリス・ハスティングス(MH)サンプリング器を開発した。
対象分布からより効率的かつ正確なサンプリングが可能となり, (b) 事前に固定するのではなく, サンプリング手順により生成長を決定することが可能となった。
論文 参考訳(メタデータ) (2023-12-07T18:30:15Z) - Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding [25.03122689338891]
本稿では,大規模言語モデルの高速化を目的とした新しい推論手法である自己推論復号法を提案する。
提案手法では、追加のニューラルネットワークトレーニングや、追加のメモリフットプリントを必要としない。
LLaMA-2とその変種によるベンチマークでは、最大1.99$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z) - Accelerating Large Language Model Decoding with Speculative Sampling [9.851546623666588]
投機的サンプリング(英: Speculative sample)とは、変換器の呼び出し毎に複数のトークンを生成することで、変換器の復号を高速化するアルゴリズムである。
我々は、70億のパラメータ言語モデルであるChinchillaを用いて投機的サンプリングをベンチマークし、分散セットアップで2-2.5倍のデコード速度を達成する。
論文 参考訳(メタデータ) (2023-02-02T18:44:11Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。