論文の概要: Set Block Decoding is a Language Model Inference Accelerator
- arxiv url: http://arxiv.org/abs/2509.04185v1
- Date: Thu, 04 Sep 2025 13:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.166281
- Title: Set Block Decoding is a Language Model Inference Accelerator
- Title(参考訳): Set Block Decoding - 言語モデル推論アクセラレータ
- Authors: Itai Gat, Heli Ben-Hamu, Marton Havasi, Daniel Haziza, Jeremy Reizenstein, Gabriel Synnaeve, David Lopez-Paz, Brian Karrer, Yaron Lipman,
- Abstract要約: SBD(Set Block Decoding)は,NTP(Next token Prediction)とマスク付きトークン予測(MATP)を単一のアーキテクチャに統合することにより,生成を高速化する,シンプルで柔軟なパラダイムである。
SBDは、従来の加速法との大きな違いである複数の、必ずしも連続しない未来のトークンを並列にサンプリングすることを可能にする。
我々は,SBDにより,生成に必要な前方通過回数を3~5倍削減し,同等のNTPトレーニングを達成できることを実証した。
- 参考スコア(独自算出の注目度): 48.061016901663386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive next token prediction language models offer powerful capabilities but face significant challenges in practical deployment due to the high computational and memory costs of inference, particularly during the decoding stage. We introduce Set Block Decoding (SBD), a simple and flexible paradigm that accelerates generation by integrating standard next token prediction (NTP) and masked token prediction (MATP) within a single architecture. SBD allows the model to sample multiple, not necessarily consecutive, future tokens in parallel, a key distinction from previous acceleration methods. This flexibility allows the use of advanced solvers from the discrete diffusion literature, offering significant speedups without sacrificing accuracy. SBD requires no architectural changes or extra training hyperparameters, maintains compatibility with exact KV-caching, and can be implemented by fine-tuning existing next token prediction models. By fine-tuning Llama-3.1 8B and Qwen-3 8B, we demonstrate that SBD enables a 3-5x reduction in the number of forward passes required for generation while achieving same performance as equivalent NTP training.
- Abstract(参考訳): 自動回帰的な次のトークン予測言語モデルは、強力な能力を提供するが、特に復号段階において、推論の計算コストとメモリコストが高いため、実用的なデプロイにおいて重大な課題に直面している。
SBD(Set Block Decoding)は,NTP(Next token Prediction)とマスク付きトークン予測(MATP)を単一のアーキテクチャに統合することにより生成を高速化する,シンプルで柔軟なパラダイムである。
SBDは、従来の加速法との大きな違いである複数の、必ずしも連続しない未来のトークンを並列にサンプリングすることを可能にする。
この柔軟性により、離散拡散文学から高度な解法を利用でき、精度を犠牲にすることなくかなりのスピードアップを提供できる。
SBDはアーキテクチャの変更や追加のトレーニングハイパーパラメータを必要とせず、正確なKVキャッシュとの互換性を維持し、既存の次のトークン予測モデルを微調整して実装することができる。
Llama-3.1 8B と Qwen-3 8B を微調整することにより、SBD は同等の NTP トレーニングと同等の性能を保ちながら、生成に必要なフォワードパス数を3~5倍削減できることを示した。
関連論文リスト
- OverFill: Two-Stage Models for Efficient Language Model Decoding [68.68408155020568]
大規模言語モデル(LLM)は多様なタスクにまたがって優れていますが、高い推論コストのため、デプロイメント上の大きな課題に直面しています。
プリフィルとデコードステージを分離し,精度と効率のトレードオフを最適化するOverFillを提案する。
我々の3B-to-1B OverFill構成は1Bプルーニングモデルを83.2%上回り、8B-to-3B構成は3Bプルーニングモデルを79.2%上回った。
論文 参考訳(メタデータ) (2025-08-11T20:07:34Z) - BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning [20.58336395243977]
B-spline Encoded Action Sequence Tokenizer (BEAST)について述べる。
BEAST は B-splines を用いて、アクションシーケンスをコンパクトな離散トークンまたは連続トークンにエンコードする。
BEASTは166のシミュレーションタスクと8つの実世界のタスクからなる3つの異なるロボット設定からなる3つの確立されたベンチマークで評価した。
論文 参考訳(メタデータ) (2025-06-06T13:26:16Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z) - Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。