論文の概要: Parallel Token Prediction for Language Models
- arxiv url: http://arxiv.org/abs/2512.21323v1
- Date: Wed, 24 Dec 2025 18:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.848068
- Title: Parallel Token Prediction for Language Models
- Title(参考訳): 言語モデルの並列トークン予測
- Authors: Felix Draxler, Justus Will, Farrin Marouf Sofian, Theofanis Karaletsos, Sameer Singh, Stephan Mandt,
- Abstract要約: 言語モデルにおける並列シーケンス生成のための普遍的なフレームワークである並列トークン予測(PTP)を提案する。
PTPは、サンプリング手順をモデルに組み込むことで、1つのトランスフォーマー呼び出しにおける複数の依存トークンを共同で予測する。
PTPは任意の自己回帰配列分布を表現できることを示す。
- 参考スコア(独自算出の注目度): 29.843197713818885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Parallel Token Prediction (PTP), a universal framework for parallel sequence generation in language models. PTP jointly predicts multiple dependent tokens in a single transformer call by incorporating the sampling procedure into the model. This reduces the latency bottleneck of autoregressive decoding, and avoids the restrictive independence assumptions common in existing multi-token prediction methods. We prove that PTP can represent arbitrary autoregressive sequence distributions. PTP is trained either by distilling an existing model or through inverse autoregressive training without a teacher. Experimentally, we achieve state-of-the-art speculative decoding performance on Vicuna-7B by accepting over four tokens per step on Spec-Bench. The universality of our framework indicates that parallel generation of long sequences is feasible without loss of modeling power.
- Abstract(参考訳): 言語モデルにおける並列シーケンス生成のための汎用フレームワークである並列トークン予測(PTP)を提案する。
PTPは、サンプリング手順をモデルに組み込むことで、1つのトランスフォーマー呼び出しにおける複数の依存トークンを共同で予測する。
これにより、自動回帰デコーディングの遅延ボトルネックを低減し、既存のマルチトークン予測手法に共通する制限的な独立性仮定を回避することができる。
PTPは任意の自己回帰配列分布を表現できることを示す。
PTPは、既存のモデルを蒸留するか、教師なしで逆自己回帰訓練によって訓練される。
実験により,Vicuna-7Bでは,Spec-Bench上で1ステップに4個以上のトークンを受信することで,最先端の投機的復号化性能を実現する。
フレームワークの普遍性は、モデリング能力を失うことなく、長いシーケンスの並列生成が実現可能であることを示している。
関連論文リスト
- Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation [13.289870835946347]
大規模言語モデル(LLM)に基づく音声生成モデルは、テキストトークンと基本的に異なる離散音響符号で動作する。
各段階において、モデルはNのコードブックエントリを共同で予測し、単純な並列予測アプローチに挑戦する依存関係を導入する必要がある。
これを解決するために階層戦略では、ローカルトランスフォーマー(LT)を使用して予測を洗練し、タイムステップ内依存関係をキャプチャする。
本稿では,計算効率や合成忠実度などのデプロイメントの優先順位に基づいて,デコード戦略を選択するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2025-09-23T21:31:00Z) - Set Block Decoding is a Language Model Inference Accelerator [48.061016901663386]
SBD(Set Block Decoding)は,NTP(Next token Prediction)とマスク付きトークン予測(MATP)を単一のアーキテクチャに統合することにより,生成を高速化する,シンプルで柔軟なパラダイムである。
SBDは、従来の加速法との大きな違いである複数の、必ずしも連続しない未来のトークンを並列にサンプリングすることを可能にする。
我々は,SBDにより,生成に必要な前方通過回数を3~5倍削減し,同等のNTPトレーニングを達成できることを実証した。
論文 参考訳(メタデータ) (2025-09-04T13:02:39Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism [20.3565068078231]
仮説復号における分岐並列性を解き放つための新しいフレームワーク textbfSpecBranch を提案する。
SpecBranchがtextbf1.8$times sim$ textbf4.5$times$ speedups against the auto-regressive decoding and reduces rollback tokens by $textbf50$% for aligned model。
論文 参考訳(メタデータ) (2025-05-16T07:45:05Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。