論文の概要: Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential
- arxiv url: http://arxiv.org/abs/2507.11851v1
- Date: Wed, 16 Jul 2025 02:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.202652
- Title: Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential
- Title(参考訳): LLMが未来を知る:マルチトークン予測の可能性
- Authors: Mohammad Samragh, Arnav Kundu, David Harrison, Kumari Nishu, Devang Naik, Minsik Cho, Mehrdad Farajtabar,
- Abstract要約: 本稿では,バニラ自己回帰言語モデルにおける未来のトークンに関する固有知識を活用する新しいフレームワークを提案する。
本手法は,事前学習モデルの教師付き微調整により,大幅な高速化を実現する。
- 参考スコア(独自算出の注目度): 12.719829360337833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive language models are constrained by their inherently sequential nature, generating one token at a time. This paradigm limits inference speed and parallelism, especially during later stages of generation when the direction and semantics of text are relatively certain. In this work, we propose a novel framework that leverages the inherent knowledge of vanilla autoregressive language models about future tokens, combining techniques to realize this potential and enable simultaneous prediction of multiple subsequent tokens. Our approach introduces several key innovations: (1) a masked-input formulation where multiple future tokens are jointly predicted from a common prefix; (2) a gated LoRA formulation that preserves the original LLM's functionality, while equipping it for multi-token prediction; (3) a lightweight, learnable sampler module that generates coherent sequences from the predicted future tokens; (4) a set of auxiliary training losses, including a consistency loss, to enhance the coherence and accuracy of jointly generated tokens; and (5) a speculative generation strategy that expands tokens quadratically in the future while maintaining high fidelity. Our method achieves significant speedups through supervised fine-tuning on pretrained models. For example, it generates code and math nearly 5x faster, and improves general chat and knowledge tasks by almost 2.5x. These gains come without any loss in quality.
- Abstract(参考訳): 自己回帰型言語モデルは、本質的にシーケンシャルな性質によって制約され、一度に1つのトークンを生成する。
このパラダイムは推論速度と並列性を制限するもので、特にテキストの方向と意味が比較的確実な生成後期においてである。
本研究では,バニラ自己回帰言語モデルにおける未来のトークンに関する固有知識を活用し,この可能性を実現するための手法を組み合わせるとともに,その後の複数トークンの同時予測を可能にする新しいフレームワークを提案する。
提案手法では,(1)複数の将来トークンが共通接頭辞から共同で予測されるマスクインプットの定式化,(2)LLMの機能を保持するゲートLoRAの定式化,(3)予測された将来トークンから一貫性のあるシーケンスを生成する軽量で学習可能なサンプルモジュール,(4)一貫性の喪失を含む補助的なトレーニング損失の集合,(4)共同生成トークンの一貫性と精度の向上,(5)高忠実性を維持しながら将来トークンを2次的に拡張する投機的生成戦略を紹介する。
本手法は,事前学習モデルの教師付き微調整により,大幅な高速化を実現する。
例えば、コードと数学を約5倍速く生成し、一般的なチャットと知識タスクを約2.5倍改善する。
これらの利益は品質を損なうことなく得られる。
関連論文リスト
- Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である
CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。
実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2025-06-09T14:55:00Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding [11.07450742824775]
投機的復号化は、ターゲットの大規模言語モデルの自動回帰トークン生成プロセスを加速することを目的としている。
いくつかのアプローチでは、複数のヘッドを持つドラフトモデルを使用して、各ヘッドがシーケンス内のトークンを処理する将来のトークンのシーケンスを予測する。
本稿では,シリアルヘッドと並列ヘッドを組み合わせたハイブリッドモデルであるGumihoを提案する。
論文 参考訳(メタデータ) (2025-03-13T07:55:38Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Emu3: Next-Token Prediction is All You Need [45.142268281651035]
Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。
Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。
また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
論文 参考訳(メタデータ) (2024-09-27T16:06:11Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。