論文の概要: Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs
- arxiv url: http://arxiv.org/abs/2605.27255v1
- Date: Tue, 26 May 2026 16:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.415898
- Title: Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs
- Title(参考訳): Pair-In, Pair-Out:高効率LCMの遅延マルチトークン予測
- Authors: Wenhui Tan, Minghao Li, Xiaoqian Ma, Siqi Fan, Xiusheng Huang, Liujie Zhang, Ruihua Song, Weihang Chen,
- Abstract要約: PIPO (textbfPair-In, Pair-Out) を提案する。
PIPOは、ドラフトトークンが受け入れられるべきかどうかを決定する軽量な信頼性ヘッドをトレーニングする。
AIME 2025、GPQA-Diamond、LiveCodeBench v6、およびQwen3.5-4Bと9BのバックボーンによるLongBench v2の実験によると、PIPOは通常のデコードよりもパス@4を最大7.15ドルポイント改善している。
- 参考スコア(独自算出の注目度): 19.38885798529711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long chain-of-thought reasoning has made autoregressive decoding the dominant inference cost of modern large language models. Existing methods target either the input side (latent compression) or the output side (speculative decoding and multi-token prediction, MTP), but the two lines of work have been pursued independently. Moreover, output-side methods must incur an expensive verifier pass to validate the unreliable draft tokens predicted by MTP. To address these issues, we propose \textbf{Pair-In, Pair-Out (PIPO)}, which unifies both sides by viewing a latent compressor and an MTP head as mirror-image operations: the compressor folds two input tokens into one latent representation, while the MTP head unfolds one hidden state into one additional output token. To remove the verifier cost without sacrificing reliability, PIPO trains a lightweight confidence head that decides whether draft tokens should be accepted. We observe that On-Policy Distillation (OPD) naturally matches the rejection-sampling criterion of speculative decoding, so the confidence head can be trained alongside OPD with negligible extra cost. Experiments on AIME 2025, GPQA-Diamond, LiveCodeBench v6, and LongBench v2 with Qwen3.5-4B and 9B backbones show that PIPO improves pass@4 over regular decoding by up to $+7.15$ points, while delivering up to $2.64\times$ first-token-latency and $2.07\times$ per-token-latency speedups.
- Abstract(参考訳): 長いチェーン・オブ・シークレット推論は、現代の大言語モデルにおける支配的な推論コストを自己回帰復号化している。
既存の手法は入力側(遅延圧縮)または出力側(投機的復号およびマルチトークン予測、MPP)をターゲットにしているが、2行の作業は独立に追求されている。
さらに、出力側メソッドは、MTPによって予測される信頼できないドラフトトークンを検証するために、高価な検証パスを発生させる必要がある。
これらの問題に対処するため, 圧縮機は2つの入力トークンを1つの潜在表現に折り畳み, MTPヘッドは1つの隠れ状態を1つの追加出力トークンに折り畳むという, 潜在圧縮機とMPPヘッドをミラーイメージとして両面を統一する「textbf{Pair-In, Pair-Out(PIPO)」を提案する。
信頼性を犠牲にすることなく検証コストを削減するため、PIPOは、ドラフトトークンが受け入れられるべきかどうかを決定する軽量な信頼性ヘッドをトレーニングする。
本研究は,OPD(On-Policy Distillation)が投機的復号化の拒絶サンプリング基準と自然に一致していることを示す。
AIME 2025、GPQA-Diamond、LiveCodeBench v6、LongBench v2、Qwen3.5-4B、9Bのバックボーンによる実験では、PIPOはパス@4を最大7.15ドルポイントで改善し、最大2.64\times$1-token-latencyと2.07\times$1-token-latencyのスピードアップを提供する。
関連論文リスト
- Multi-Token Residual Prediction [21.234596379356724]
拡散言語モデル(Diffusion Language Models)は、マスク付きトークンシーケンスを反復的にデノベートすることでテキストを生成する。
本稿では,依存性を認識可能なマルチトークンデノーミングを実現する軽量モジュールであるMulti-token Residual Prediction (MRP)を紹介する。
MRPは、バックボーンの隠れた状態からのステップ間の残留を予測し、バックボーン毎のトークンを、コストのごく一部で効果的に前方にデノベートする。
論文 参考訳(メタデータ) (2026-05-12T11:40:39Z) - Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing [3.861463840588074]
大規模言語モデル(LLM)は、次世代にのみ訓練されているにもかかわらず、潜在マルチトークン予測(MTP)能力を示す。
本研究では,その埋め込み空間から引き出されたオンザフライマスクトークンを用いてLCMを探索するトレーニングフリーMPP手法を提案する。
マスクトケロジットからトップK候補を抽出して投機的トークンツリーを構築し,高確率継続を維持するために軽量プルーニング戦略を適用した。
論文 参考訳(メタデータ) (2026-03-18T17:14:01Z) - Speculative Decoding Speed-of-Light: Optimal Lower Bounds via Branching Random Walks [39.54576236079211]
投機生成は、大規模言語モデルにおける推論を加速する有望な手法として登場した。
本研究では,任意の決定論的投機生成アルゴリズムのランタイム上での最初のタイトな下限を確立する。
論文 参考訳(メタデータ) (2025-12-12T16:54:33Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。