論文の概要: FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction
- arxiv url: http://arxiv.org/abs/2509.18362v1
- Date: Tue, 16 Sep 2025 07:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.550579
- Title: FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction
- Title(参考訳): FastMTP: マルチトークン予測の強化によるLCM推論の高速化
- Authors: Yuxuan Cai, Xiaozhuan Liang, Xinghua Wang, Jin Ma, Haijin Liang, Jinwen Luo, Xinyu Zuo, Lisheng Duan, Yuyang Yin, Xi Chen,
- Abstract要約: 本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。
我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。
7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
- 参考スコア(独自算出の注目度): 11.691960175716163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become increasingly powerful, the sequential nature of autoregressive generation creates a fundamental throughput bottleneck that limits the practical deployment. While Multi-Token Prediction (MTP) has demonstrated remarkable benefits for model training efficiency and performance, its inherent potential for inference acceleration remains largely unexplored. This paper introduces FastMTP, a simple yet effective method that improves multi-step draft quality by aligning MTP training with its inference pattern, significantly enhancing speculative decoding performance. Our approach fine-tunes a single MTP head with position-shared weights on self-distilled data, enabling it to capture dependencies among consecutive future tokens and maintain high acceptance rates across multiple recursive draft steps. By integrating language-aware dynamic vocabulary compression into the MTP head, we further reduce computational overhead in the drafting process. Experimental results across seven diverse benchmarks demonstrate that FastMTP achieves an average of 2.03x speedup compared to standard next token prediction with lossless output quality, outperforming vanilla MTP by 82%. FastMTP requires only lightweight training and seamlessly integrates with existing inference frameworks, offering a practical and rapidly deployable solution for accelerating LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます強力になるにつれて、自動回帰生成のシーケンシャルな性質は、実際のデプロイメントを制限する基本的なスループットボトルネックを生み出します。
MTP(Multi-Token Prediction)は、モデルトレーニングの効率と性能に顕著な利点を示してきたが、推論アクセラレーションの本質的な可能性はほとんど解明されていない。
本稿では,MTPトレーニングを推論パターンに整合させることにより,多段階のドラフト品質を向上し,投機的復号性能を大幅に向上させる,シンプルで効果的なFastMTPを提案する。
提案手法は, 自己蒸留データに対する位置共有重み付き単一MPPヘッドを微調整し, 連続した将来のトークン間の依存関係を捕捉し, 複数の再帰的ドラフトステップにおける高い受け入れ率を維持する。
言語対応動的語彙圧縮をMPPヘッドに統合することにより、起草プロセスにおける計算オーバーヘッドをさらに削減する。
7つのベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測よりも平均2.03倍のスピードアップを達成し、損失のない出力品質を達成し、バニラMTPを82%上回った。
FastMTPは軽量なトレーニングのみを必要とし、既存の推論フレームワークとシームレスに統合する。
関連論文リスト
- Pre-Training Curriculum for Multi-Token Prediction in Language Models [2.8071268036220003]
MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。
本稿では,MTPトレーニングのためのカリキュラム学習戦略を提案し,前向きカリキュラムと逆カリキュラムの2つの変種を探索する。
論文 参考訳(メタデータ) (2025-05-28T18:19:18Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - Meaning Typed Prompting: A Technique for Efficient, Reliable Structured Output Generation [0.0]
本稿では,効率的な構造化出力生成技術であるMeaning Typed Prompting (MTP)を紹介する。
表現力のある型定義を利用することで、MTPは出力の明確さを高め、複雑な抽象化への依存を減らす。
本稿では,MPPを実装したフレームワークであるSemantixについて紹介する。
論文 参考訳(メタデータ) (2024-10-22T20:43:50Z) - MTP: A Meaning-Typed Language Abstraction for AI-Integrated Programming [8.768061489034642]
本稿では,直感的な言語レベルでの統合を自動化する新しいパラダイムであるMeaning-Typed Programming(MTP)を提案する。
我々はPythonに取って代わるプログラミング言語であるJacにMPPを実装し、MPPは精度と効率を保ちながら、コーディングの複雑さを著しく低減することがわかった。
私たちのユーザ調査では、既存のフレームワークと比較して、タスクの完了率が3.2倍速く、コード行数が45%少ないことが示されています。
論文 参考訳(メタデータ) (2024-05-14T21:12:01Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。