論文の概要: Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing
- arxiv url: http://arxiv.org/abs/2603.17942v1
- Date: Wed, 18 Mar 2026 17:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.844157
- Title: Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing
- Title(参考訳): 埋め込み空間探索による効率的な学習自由度予測
- Authors: Raghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott,
- Abstract要約: 大規模言語モデル(LLM)は、次世代にのみ訓練されているにもかかわらず、潜在マルチトークン予測(MTP)能力を示す。
本研究では,その埋め込み空間から引き出されたオンザフライマスクトークンを用いてLCMを探索するトレーニングフリーMPP手法を提案する。
マスクトケロジットからトップK候補を抽出して投機的トークンツリーを構築し,高確率継続を維持するために軽量プルーニング戦略を適用した。
- 参考スコア(独自算出の注目度): 3.861463840588074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit latent multi-token prediction (MTP) capabilities despite being trained solely for next-token generation. We propose a simple, training-free MTP approach that probes an LLM using on-the-fly mask tokens drawn from its embedding space, enabling parallel prediction of future tokens without modifying model weights or relying on auxiliary draft models. Our method constructs a speculative token tree by sampling top-K candidates from mask-token logits and applies a lightweight pruning strategy to retain high-probability continuations. During decoding, candidate predictions are verified in parallel, resulting in lossless generation while substantially reducing the number of model calls and improving token throughput. Across benchmarks, our probing-based MTP consistently outperforms existing training-free baselines, increasing acceptance length by approximately 12\% on LLaMA3 and 8--12\% on Qwen3, and achieving throughput gains of up to 15--19\%. Finally, we provide theoretical insights and empirical evidence showing that decoder layers naturally align mask-token representations with next-token states, enabling accurate multi-step prediction without retraining or auxiliary models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、次世代にのみ訓練されているにもかかわらず、潜在マルチトークン予測(MTP)能力を示す。
組込み空間から引き出されたオンザフライマスクトークンを用いてLCMを探索し、モデル重みを変更したり補助ドラフトモデルに依存することなく、将来のトークンの並列予測を可能にする。
マスクトケロジットからトップK候補を抽出して投機的トークンツリーを構築し,高確率継続を維持するために軽量プルーニング戦略を適用した。
復号中、候補予測は並列に検証され、結果として損失のない生成となり、モデル呼び出しの数を大幅に減らし、トークンスループットが向上する。
ベンチマーク全体を通じて、我々の探索ベースのMPPは、既存のトレーニングフリーベースラインを一貫して上回り、LLaMA3では約12倍、Qwen3では8~12倍、スループットは最大15~19倍に向上します。
最後に,デコーダ層がマスク・トケン表現を次のトケン状態と自然に整合し,リトレーニングや補助モデルなしで正確なマルチステップ予測を可能にすることを示す理論的洞察と実証的証拠を提供する。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - Efficient Joint Prediction of Multiple Future Tokens [20.647830092055955]
本稿では,JTP(Joint Multi-token Prediction)を導入する。
従来のマルチトークン予測手法とは異なり、JTPは将来トークンの教師強制を戦略的に採用している。
本稿では,JTP手法が短時間の信念状態表現を実現するのに対して,マルチトークン予測の一般的な代替手段では実現できないことを示す。
論文 参考訳(メタデータ) (2025-03-24T19:52:42Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。