論文の概要: Fast and Expressive Multi-Token Prediction with Probabilistic Circuits
- arxiv url: http://arxiv.org/abs/2511.11346v1
- Date: Fri, 14 Nov 2025 14:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.652629
- Title: Fast and Expressive Multi-Token Prediction with Probabilistic Circuits
- Title(参考訳): 確率回路を用いた高速かつ高速なマルチトークン予測
- Authors: Andreas Grivas, Lorenzo Loconte, Emile van Krieken, Piotr Nawrot, Yu Zhao, Euan Wielewski, Pasquale Minervini, Edoardo Ponti, Antonio Vergari,
- Abstract要約: MTP(Multi-token Prediction)は、大規模言語モデル(LLM)における生成を著しく高速化するための重要な戦略である。
確率回路(PC)の枠組みにおけるMPPの表現性と遅延のトレードオフについて検討する。
我々のフレームワークであるMTPCは、将来のトークン上の共同分布をエンコードする様々な方法を探索することを可能にする。
- 参考スコア(独自算出の注目度): 29.853857313543468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-token prediction (MTP) is a prominent strategy to significantly speed up generation in large language models (LLMs), including byte-level LLMs, which are tokeniser-free but prohibitively slow. However, existing MTP methods often sacrifice expressiveness by assuming independence between future tokens. In this work, we investigate the trade-off between expressiveness and latency in MTP within the framework of probabilistic circuits (PCs). Our framework, named MTPC, allows one to explore different ways to encode the joint distributions over future tokens by selecting different circuit architectures, generalising classical models such as (hierarchical) mixture models, hidden Markov models and tensor networks. We show the efficacy of MTPC by retrofitting existing byte-level LLMs, such as EvaByte. Our experiments show that, when combined with speculative decoding, MTPC significantly speeds up generation compared to MTP with independence assumptions, while guaranteeing to retain the performance of the original verifier LLM. We also rigorously study the optimal trade-off between expressiveness and latency when exploring the possible parameterisations of MTPC, such as PC architectures and partial layer sharing between the verifier and draft LLMs.
- Abstract(参考訳): MTP(Multi-token Prediction)は、大言語モデル(LLM)における生成を著しく高速化するための重要な戦略である。
しかし、既存のMTPメソッドは、将来のトークン間の独立性を仮定することで表現性を犠牲にすることが多い。
本研究では,確率回路(PC)の枠組みにおけるMPPの表現性と遅延のトレードオフについて検討する。
我々のフレームワークであるMTPCは、異なる回路アーキテクチャを選択し、(階層的な)混合モデル、隠れマルコフモデル、テンソルネットワークなどの古典的なモデルを一般化することにより、将来のトークン上の結合分布をエンコードする方法を探索することを可能にする。
EvaByte などの既存のバイトレベルの LLM を復元し,MTPC の有効性を示す。
実験の結果,MTPCは投機的復号化と組み合わせることで,独立性の仮定を持つMPPに比べて生成速度が著しく向上し,元の検証器LLMの性能が保証された。
また,PCアーキテクチャや検証器とドラフトLLM間の部分層共有など,MTPCのパラメータ化の可能性を探究する際の表現性と遅延の最適トレードオフについて,厳密に検討する。
関連論文リスト
- FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction [11.691960175716163]
本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。
我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。
7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2025-09-16T07:36:26Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。
次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文 参考訳(メタデータ) (2025-02-13T15:42:44Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。