論文の概要: L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17505v1
- Date: Fri, 23 May 2025 05:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.851514
- Title: L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models
- Title(参考訳): L-MTP:大規模言語モデルにおける隣接文脈を越えた複数トークン予測
- Authors: Xiaohao Liu, Xiaobo Xia, Weixiang Zhao, Manyi Zhang, Xianzhi Yu, Xiu Su, Shuo Yang, See-Kiong Ng, Tat-Seng Chua,
- Abstract要約: 本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
- 参考スコア(独自算出の注目度): 69.1271366892683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved notable progress. Despite their success, next-token prediction (NTP), the dominant method for LLM training and inference, is constrained in both contextual coverage and inference efficiency due to its inherently sequential process. To overcome these challenges, we propose leap multi-token prediction~(L-MTP), an innovative token prediction method that extends the capabilities of multi-token prediction (MTP) by introducing a leap-based mechanism. Unlike conventional MTP, which generates multiple tokens at adjacent positions, L-MTP strategically skips over intermediate tokens, predicting non-sequential ones in a single forward pass. This structured leap not only enhances the model's ability to capture long-range dependencies but also enables a decoding strategy specially optimized for non-sequential leap token generation, effectively accelerating inference. We theoretically demonstrate the benefit of L-MTP in improving inference efficiency. Experiments across diverse benchmarks validate its merit in boosting both LLM performance and inference speed. The source code will be publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は顕著な進歩を遂げた。
その成功にもかかわらず、LLMトレーニングと推論の主要な方法であるNext-token Prediction (NTP)は、本質的にシーケンシャルなプロセスのため、文脈的カバレッジと推論効率の両方で制約されている。
これらの課題を克服するために,跳躍に基づく機構を導入することで,MTP(Multi-token Prediction)の能力を拡張する革新的なトークン予測手法である跳躍マルチトークン予測~(L-MTP)を提案する。
隣接位置で複数のトークンを生成する従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つの前方通過で非逐次トークンを予測する。
この構造化された跳躍は、長距離依存をキャプチャするモデルの能力を向上するだけでなく、非逐次跳躍トークン生成のために特別に最適化された復号戦略を可能にし、推論を効果的に加速させる。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
多様なベンチマークによる実験は、LLMのパフォーマンスと推論速度の両方を向上するメリットを検証している。
ソースコードは公開されます。
関連論文リスト
- VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation [26.34810950257782]
音声大言語モデル(LLM)は、音声処理に顕著な焦点をあてている。
本稿では,スケーラブルでモデルに依存しない学習フレームワークによって実現された,高性能で低レイテンシなLLMであるVocalNet-1BとVocalNet-8Bを紹介する。
我々の貢献の中心は、LLMに対するMTP(Multi-token Prediction)の最初の応用である。
論文 参考訳(メタデータ) (2025-04-05T04:57:12Z) - On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。
次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文 参考訳(メタデータ) (2025-02-13T15:42:44Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference [41.93955876156331]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めた。
推論プロセスは、デコードの各ステップにおける単一トーケン生成により、相当な時間とエネルギー要求によって妨げられる。
MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。
論文 参考訳(メタデータ) (2024-07-12T23:29:54Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。