論文の概要: Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment
- arxiv url: http://arxiv.org/abs/2501.19309v1
- Date: Fri, 31 Jan 2025 17:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:22.717003
- Title: Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment
- Title(参考訳): 審査員のデコーディング: より高速な投機的サンプリングは、モデルアライメントを超えて行う必要がある
- Authors: Gregor Bachmann, Sotiris Anagnostidis, Albert Pumarola, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Edgar Schönfeld, Ali Thabet, Jonas Kohler,
- Abstract要約: 自己回帰生成を高速化する手法として投機的復号法が提案されている。
GPT-4oのような強力なドラフトモデルであっても、人間のテキストは高い受け入れ率を達成できないことを示す。
私たちは、正しいが一致しない応答を認識するために、検証に適応できるだろうか?
- 参考スコア(独自算出の注目度): 25.988070517700848
- License:
- Abstract: The performance of large language models (LLMs) is closely linked to their underlying size, leading to ever-growing networks and hence slower inference. Speculative decoding has been proposed as a technique to accelerate autoregressive generation, leveraging a fast draft model to propose candidate tokens, which are then verified in parallel based on their likelihood under the target model. While this approach guarantees to reproduce the target output, it incurs a substantial penalty: many high-quality draft tokens are rejected, even when they represent objectively valid continuations. Indeed, we show that even powerful draft models such as GPT-4o, as well as human text cannot achieve high acceptance rates under the standard verification scheme. This severely limits the speedup potential of current speculative decoding methods, as an early rejection becomes overwhelmingly likely when solely relying on alignment of draft and target. We thus ask the following question: Can we adapt verification to recognize correct, but non-aligned replies? To this end, we draw inspiration from the LLM-as-a-judge framework, which demonstrated that LLMs are able to rate answers in a versatile way. We carefully design a dataset to elicit the same capability in the target model by training a compact module on top of the embeddings to produce ``judgements" of the current continuation. We showcase our strategy on the Llama-3.1 family, where our 8b/405B-Judge achieves a speedup of 9x over Llama-405B, while maintaining its quality on a large range of benchmarks. These benefits remain present even in optimized inference frameworks, where our method reaches up to 141 tokens/s for 8B/70B-Judge and 129 tokens/s for 8B/405B on 2 and 8 H100s respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、その基盤となるサイズと密接に関連しているため、ネットワークが成長し、推論が遅くなる。
投機的復号化は自動回帰生成を高速化する手法として提案され、高速なドラフトモデルを用いて候補トークンを提案する。
このアプローチは、ターゲットの出力を再現することを保証しますが、それは実質的なペナルティをもたらします。
実際、GPT-4oのような強力なドラフトモデルや人間のテキストでさえ、標準的な検証方式では高い受け入れ率を達成できないことを示す。
これは、ドラフトとターゲットのアライメントのみに依存すると、早期の拒絶が圧倒的に起こりうるため、現在の投機的復号法のスピードアップポテンシャルを著しく制限する。
検証に適応して正しいが、一致しない応答を認識できるだろうか?
この目的を達成するために, LLM-as-a-judgeフレームワークからインスピレーションを得た。
組込みの上のコンパクトモジュールをトレーニングして、ターゲットモデルで同じ機能を引き出すデータセットを慎重に設計し、現在の継続の `judgements' を生成する。
8b/405B-Judge が Llama-405B 上で 9x の高速化を実現し,その品質を広範囲のベンチマークで維持する Llama-3.1 シリーズの戦略を実証する。
これらの利点は、最適化された推論フレームワークでも残っており、メソッドは8B/70B-Judgeで141トークン/s、2H100で8B/405Bで129トークン/sに達する。
関連論文リスト
- GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。
LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - TOPLOC: A Locality Sensitive Hashing Scheme for Trustless Verifiable Inference [0.0]
大規模言語モデル(LLM)は非常に有能であることが証明されているが、現在の最高のモデルへのアクセスは、信頼の難しさをもたらす推論プロバイダに依存している。
本研究では,この問題に対処する検証可能な新しい手法であるTOPLOCを提案する。
論文 参考訳(メタデータ) (2025-01-27T12:46:45Z) - Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration [14.011702040133848]
ドラフトフェーズにおけるドラフトトークン間の相関性を強化するCTCベースのドラフトモデルを提案する。
実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-25T14:10:21Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。