論文の概要: Self-Distillation for Multi-Token Prediction
- arxiv url: http://arxiv.org/abs/2603.23911v1
- Date: Wed, 25 Mar 2026 04:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.119863
- Title: Self-Distillation for Multi-Token Prediction
- Title(参考訳): マルチトークン予測のための自己蒸留
- Authors: Guoliang Zhao, Ruobing Xie, An Wang, Shuaipeng Li, Huaibing Xie, Xingwu Sun,
- Abstract要約: マルチトークン予測(MTP)は、複数の将来トークンを並列に予測することで、推論を加速することができる。
MTP-Dは, トレーニングコストを最小限に抑えつつ, 簡便かつ効果的な自己蒸留法である。
また、MPP-Dのループ拡張戦略を導入し、効果的かつ経済的なMPPヘッド拡張を可能にした。
- 参考スコア(独自算出の注目度): 27.12687724768597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) scale up, inference efficiency becomes a critical bottleneck. Multi-Token Prediction (MTP) could accelerate LLM inference by predicting multiple future tokens in parallel. However, existing MTP approaches still face two challenges: limited acceptance rates of MTP heads, and difficulties in jointly training multiple MTP heads. Therefore, we propose MTP-D, a simple yet effective self-distillation method with minimal additional training cost, which boosts MTP head acceptance rates (+7.5\%) while maximumly preserving main-head performance. We also introduce a looped extension strategy for MTP-D, enabling effective and economical MTP head extension and further significant inference speedup to 1-head MTP (+220.4\%). Moreover, we systematically explore and validate key insights on the distillation strategies and the potential scalability of MTP through extensive experiments on seven benchmarks. These results demonstrate that our MTP-D and looped extension strategy effectively enhance MTP-head performance and inference efficiency, facilitating the practical usage of MTP in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)がスケールアップするにつれて、推論効率は重要なボトルネックとなる。
マルチトークン予測(MTP)は、複数の将来トークンを並列に予測することで、LCM推論を加速することができる。
しかし、既存のMPPアプローチは、MPPヘッドの受入率の制限と、複数のMPPヘッドを共同で訓練する困難という2つの課題に直面している。
そこで本研究では,MPPヘッドの受入率(+7.5\%)を高めるとともに,メインヘッド性能を最大に保ちながら,トレーニングコストを最小に抑えた簡易かつ効果的な自己蒸留法であるMPP-Dを提案する。
また,MTP-Dのループ拡張戦略を導入し,効果的かつ経済的なMPPヘッド拡張と,さらに1ヘッドMPP(+220.4\%)への推論速度向上を実現した。
さらに,7つのベンチマークの広範な実験を通じて,蒸留戦略とMPPの潜在的な拡張性に関する重要な知見を体系的に検討し,検証した。
これらの結果から,我々のMPP-Dおよびループ拡張戦略はMPPヘッド性能と推論効率を効果的に向上させ,LCMにおけるMPPの実用的利用を促進することが示唆された。
関連論文リスト
- MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction [49.92201266421949]
音声から単位への翻訳(S2UT)モデルにマルチトークン予測(MTP)損失を導入する。
全てのMPP損失変種がS2UT翻訳の品質を一貫して改善していることが示される。
論文 参考訳(メタデータ) (2025-10-11T04:06:20Z) - FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction [11.691960175716163]
本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。
我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。
7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2025-09-16T07:36:26Z) - MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper [75.6582687942241]
本稿では,Mixture of Expert Prompt Tuning (MEPT) を効果的かつ効率的な多様体マッピングフレームワークとして提案する。
MEPTは複数のプロンプト専門家を統合し、多様な非定常データ分布を適応的に学習する。
経験的評価により、MEPTはSuperGLUE上でいくつかの最先端パラメータの効率的なベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-08-31T21:19:25Z) - Pre-Training Curriculum for Multi-Token Prediction in Language Models [2.8071268036220003]
MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。
本稿では,MTPトレーニングのためのカリキュラム学習戦略を提案し,前向きカリキュラムと逆カリキュラムの2つの変種を探索する。
論文 参考訳(メタデータ) (2025-05-28T18:19:18Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。
次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文 参考訳(メタデータ) (2025-02-13T15:42:44Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。