論文の概要: Fast Byte Latent Transformer
- arxiv url: http://arxiv.org/abs/2605.08044v1
- Date: Fri, 08 May 2026 17:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.244156
- Title: Fast Byte Latent Transformer
- Title(参考訳): Fast Byte Latent Transformer
- Authors: Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher Potts, Xiaochuang Han, Srinivasan Iyer,
- Abstract要約: 我々は,BLT拡散(BLT-D)という新しいモデルを導入し,次世代の予測損失と並行して,ブロック単位の拡散目標を訓練した。
第二に、この速度の一部を高い世代品質で交換する投機的復号法にインスパイアされた2つの拡張を提案する。
全ての方法は、生成タスクにおけるBLTよりも50%以上低いメモリ帯域幅のコストを達成することができる。
- 参考スコア(独自算出の注目度): 73.03308456251764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent byte-level language models (LMs) match the performance of token-level models without relying on subword vocabularies, yet their utility is limited by slow, byte-by-byte autoregressive generation. We address this bottleneck in the Byte Latent Transformer (BLT) through new training and generation techniques. First, we introduce BLT Diffusion (BLT-D), a new model and our fastest BLT variant, trained with an auxiliary block-wise diffusion objective alongside the standard next-byte prediction loss. This enables an inference procedure that generates multiple bytes in parallel per decoding step, substantially reducing the number of forward passes required to generate a sequence. Second, we propose two extensions inspired by speculative decoding that trade some of this speed for higher generation quality: BLT Self-speculation (BLT-S), in which BLT's local decoder continues generating past its normal patch boundaries to draft bytes, which are then verified with a single full-model forward pass; and BLT Diffusion+Verification (BLT-DV), which augments BLT-D with an autoregressive verification step after diffusion-based generation. All methods may achieve an estimated memory-bandwidth cost over 50% lower than BLT on generation tasks. Each approach offers its own unique advantages, together removing key barriers to the practical use of byte-level LMs.
- Abstract(参考訳): 近年のバイトレベル言語モデル (LM) はサブワード語彙に頼らずにトークンレベルのモデルの性能にマッチするが、その効用は遅いバイト単位の自己回帰生成によって制限される。
Byte Latent Transformer (BLT) では,このボトルネックに新たなトレーニングと生成技術を用いて対処する。
まず,新しいモデルであるBLT拡散(BLT-D)を導入する。
これにより、復号ステップ毎に複数のバイトを並列に生成する推論手順が可能となり、シーケンスを生成するのに必要なフォワードパスの数を大幅に削減できる。
次に、BLTのローカルデコーダが通常のパッチ境界を過ぎてドラフトバイトを生成するBLT Self-speculation (BLT-S) と、BLT Diffusion+Verification (BLT-DV) と、BLT-Dを拡散ベース生成後の自己回帰検証ステップで拡張するBLT Diffusion+Verification (BLT-DV) の2つの拡張を提案する。
全ての方法は、生成タスクにおけるBLTよりも50%以上低いメモリ帯域幅のコストを達成することができる。
それぞれのアプローチは独自のアドバンテージを提供し、共にバイトレベルのLMを実践する上で重要な障壁を取り除く。
関連論文リスト
- Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM [58.322826487307765]
我々は,KV-cache互換並列デコードと推測ブロックデコードが可能なブロック拡散型VLMであるFast-dVLMを提案する。
SGLangの統合とFP8量子化により、Fast-dVLMはARベースライン上でのエンドツーエンドの推論速度を6倍以上に向上する。
論文 参考訳(メタデータ) (2026-04-08T08:50:08Z) - Speculate Deep and Accurate: Lossless and Training-Free Acceleration for Offloaded LLMs via Substitute Speculative Decoding [10.223767541511991]
SubSpecはパラメータのオフロードを高速化するプラグイン・アンド・プレイ方式である。
MT-BenchではQwen2.5 7Bの9.1倍のスピードアップ、人気の世代ベンチマークではQwen2.5 32Bの12.5倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-22T19:08:57Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。
固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文 参考訳(メタデータ) (2024-12-13T05:33:32Z) - BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language
Models [37.09385961422664]
大規模言語モデル(LLM)は、推論中に自己回帰生成を使用することが多く、高いメモリ帯域幅要求と拡張レイテンシをもたらす。
半自己回帰生成とドラフト検証によるLCMの高速化手法であるBiTA(Bi-directional Tuning for Losless Acceleration)を提案する。
提案されたBiTA、LLaMA-2-70B-ChatはMT-Benchベンチマークで2.7$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-01-23T06:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。