Fugu-MT 論文翻訳(概要): Fast and Expressive Multi-Token Prediction with Probabilistic Circuits

論文の概要: Fast and Expressive Multi-Token Prediction with Probabilistic Circuits

arxiv url: http://arxiv.org/abs/2511.11346v1
Date: Fri, 14 Nov 2025 14:33:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-17 22:42:18.652629
Title: Fast and Expressive Multi-Token Prediction with Probabilistic Circuits
Title（参考訳）: 確率回路を用いた高速かつ高速なマルチトークン予測
Authors: Andreas Grivas, Lorenzo Loconte, Emile van Krieken, Piotr Nawrot, Yu Zhao, Euan Wielewski, Pasquale Minervini, Edoardo Ponti, Antonio Vergari,
Abstract要約: MTP(Multi-token Prediction)は、大規模言語モデル(LLM)における生成を著しく高速化するための重要な戦略である。確率回路(PC)の枠組みにおけるMPPの表現性と遅延のトレードオフについて検討する。我々のフレームワークであるMTPCは、将来のトークン上の共同分布をエンコードする様々な方法を探索することを可能にする。
参考スコア（独自算出の注目度）: 29.853857313543468
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-token prediction (MTP) is a prominent strategy to significantly speed up generation in large language models (LLMs), including byte-level LLMs, which are tokeniser-free but prohibitively slow. However, existing MTP methods often sacrifice expressiveness by assuming independence between future tokens. In this work, we investigate the trade-off between expressiveness and latency in MTP within the framework of probabilistic circuits (PCs). Our framework, named MTPC, allows one to explore different ways to encode the joint distributions over future tokens by selecting different circuit architectures, generalising classical models such as (hierarchical) mixture models, hidden Markov models and tensor networks. We show the efficacy of MTPC by retrofitting existing byte-level LLMs, such as EvaByte. Our experiments show that, when combined with speculative decoding, MTPC significantly speeds up generation compared to MTP with independence assumptions, while guaranteeing to retain the performance of the original verifier LLM. We also rigorously study the optimal trade-off between expressiveness and latency when exploring the possible parameterisations of MTPC, such as PC architectures and partial layer sharing between the verifier and draft LLMs.
Abstract（参考訳）: MTP(Multi-token Prediction)は、大言語モデル(LLM)における生成を著しく高速化するための重要な戦略である。しかし、既存のMTPメソッドは、将来のトークン間の独立性を仮定することで表現性を犠牲にすることが多い。本研究では,確率回路(PC)の枠組みにおけるMPPの表現性と遅延のトレードオフについて検討する。我々のフレームワークであるMTPCは、異なる回路アーキテクチャを選択し、(階層的な)混合モデル、隠れマルコフモデル、テンソルネットワークなどの古典的なモデルを一般化することにより、将来のトークン上の結合分布をエンコードする方法を探索することを可能にする。 EvaByte などの既存のバイトレベルの LLM を復元し,MTPC の有効性を示す。実験の結果,MTPCは投機的復号化と組み合わせることで,独立性の仮定を持つMPPに比べて生成速度が著しく向上し,元の検証器LLMの性能が保証された。また,PCアーキテクチャや検証器とドラフトLLM間の部分層共有など,MTPCのパラメータ化の可能性を探究する際の表現性と遅延の最適トレードオフについて,厳密に検討する。

関連論文リスト

Temporal Guidance for Large Language Models [22.7968403903992]
我々は,時間的次元,すなわち時間的条件ガイダンス(TeGu)に沿った新たなコントラスト誘導戦略を提案する。提案手法は,マルチトークン予測(MTP)を利用して,モデル自己コントラストに対する弱いアマチュア予測を構築する。さまざまなモデルシリーズとベンチマークで、TeGuはメモリ消費と計算オーバーヘッドを低く保ちながら、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2026-01-29T14:01:00Z)
FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction [11.691960175716163]
本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。 7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
論文参考訳（メタデータ） (2025-09-16T07:36:26Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文参考訳（メタデータ） (2025-05-23T05:59:46Z)
On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文参考訳（メタデータ） (2025-02-13T15:42:44Z)
R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文参考訳（メタデータ） (2024-11-27T10:57:06Z)
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文参考訳（メタデータ） (2024-10-09T14:15:30Z)
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-05T14:13:50Z)
SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文参考訳（メタデータ） (2023-10-18T16:07:01Z)
Towards Semantic Communication Protocols: A Probabilistic Logic Perspective [69.68769942563812]
我々は,NPMを確率論理型言語ProbLogで記述された解釈可能なシンボルグラフに変換することによって構築された意味プロトコルモデル(SPM)を提案する。その解釈性とメモリ効率を利用して、衝突回避のためのSPM再構成などのいくつかの応用を実演する。
論文参考訳（メタデータ） (2022-07-08T14:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。