論文の概要: L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17505v2
- Date: Mon, 22 Sep 2025 08:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.15612
- Title: L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models
- Title(参考訳): L-MTP:大規模言語モデルにおける隣接文脈を越えた複数トークン予測
- Authors: Xiaohao Liu, Xiaobo Xia, Weixiang Zhao, Manyi Zhang, Xianzhi Yu, Xiu Su, Shuo Yang, See-Kiong Ng, Tat-Seng Chua,
- Abstract要約: 本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
- 参考スコア(独自算出の注目度): 95.53699156138435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved notable progress. Despite their success, next-token prediction (NTP), the dominant method for LLM training and inference, is constrained in both contextual coverage and inference efficiency due to its inherently sequential process. To overcome these challenges, we propose leap multi-token prediction~(L-MTP), an innovative token prediction method that extends the capabilities of multi-token prediction (MTP) by introducing a leap-based mechanism. Unlike conventional MTP, which generates multiple tokens at adjacent positions, L-MTP strategically skips over intermediate tokens, predicting non-sequential ones in a single forward pass. This structured leap not only enhances the model's ability to capture long-range dependencies but also enables a decoding strategy specially optimized for non-sequential leap token generation, effectively accelerating inference. We theoretically demonstrate the benefit of L-MTP in improving inference efficiency. Experiments across diverse benchmarks validate its merit in boosting both LLM performance and inference speed. The source code is available at https://github.com/Xiaohao-Liu/L-MTP.
- Abstract(参考訳): 大規模言語モデル(LLM)は顕著な進歩を遂げた。
その成功にもかかわらず、LLMトレーニングと推論の主要な方法であるNext-token Prediction (NTP)は、本質的にシーケンシャルなプロセスのため、文脈的カバレッジと推論効率の両方で制約されている。
これらの課題を克服するために,跳躍に基づく機構を導入することで,MTP(Multi-token Prediction)の能力を拡張する革新的なトークン予測手法である跳躍マルチトークン予測~(L-MTP)を提案する。
隣接位置で複数のトークンを生成する従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つの前方通過で非逐次トークンを予測する。
この構造化された跳躍は、長距離依存をキャプチャするモデルの能力を向上するだけでなく、非逐次跳躍トークン生成のために特別に最適化された復号戦略を可能にし、推論を効果的に加速させる。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
多様なベンチマークによる実験は、LLMのパフォーマンスと推論速度の両方を向上するメリットを検証している。
ソースコードはhttps://github.com/Xiaohao-Liu/L-MTPで入手できる。
関連論文リスト
- Fast and Expressive Multi-Token Prediction with Probabilistic Circuits [29.853857313543468]
MTP(Multi-token Prediction)は、大規模言語モデル(LLM)における生成を著しく高速化するための重要な戦略である。
確率回路(PC)の枠組みにおけるMPPの表現性と遅延のトレードオフについて検討する。
我々のフレームワークであるMTPCは、将来のトークン上の共同分布をエンコードする様々な方法を探索することを可能にする。
論文 参考訳(メタデータ) (2025-11-14T14:33:14Z) - Beyond Multi-Token Prediction: Pretraining LLMs with Future Summaries [35.39150917025755]
将来の要約予測(FSP)は、長期的な未来のコンパクトな表現を予測するために補助ヘッドを訓練する。
FSPは数学、推論、コーディングベンチマークで NTP と MTP の両方の改善を提供する。
論文 参考訳(メタデータ) (2025-10-16T14:52:52Z) - FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction [11.691960175716163]
本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。
我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。
7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2025-09-16T07:36:26Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Pre-Training Curriculum for Multi-Token Prediction in Language Models [2.8071268036220003]
MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。
本稿では,MTPトレーニングのためのカリキュラム学習戦略を提案し,前向きカリキュラムと逆カリキュラムの2つの変種を探索する。
論文 参考訳(メタデータ) (2025-05-28T18:19:18Z) - VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation [26.34810950257782]
音声大言語モデル(LLM)は、音声処理に顕著な焦点をあてている。
本稿では,スケーラブルでモデルに依存しない学習フレームワークによって実現された,高性能で低レイテンシなLLMであるVocalNet-1BとVocalNet-8Bを紹介する。
我々の貢献の中心は、LLMに対するMTP(Multi-token Prediction)の最初の応用である。
論文 参考訳(メタデータ) (2025-04-05T04:57:12Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。
次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文 参考訳(メタデータ) (2025-02-13T15:42:44Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference [41.93955876156331]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めた。
推論プロセスは、デコードの各ステップにおける単一トーケン生成により、相当な時間とエネルギー要求によって妨げられる。
MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。
論文 参考訳(メタデータ) (2024-07-12T23:29:54Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。