論文の概要: Direct Multi-Token Decoding
- arxiv url: http://arxiv.org/abs/2510.11958v1
- Date: Mon, 13 Oct 2025 21:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.100923
- Title: Direct Multi-Token Decoding
- Title(参考訳): 直接マルチトークンデコード
- Authors: Xuan Luo, Weizhi Wang, Xifeng Yan,
- Abstract要約: 我々は,大規模言語モデル(LLM)の推論パラダイムとして,DMTD(Direct Multi-Token Decoding)を導入する。
投機的復号法とは異なり,提案手法では追加パラメータや補助ルーチンやポストジェネレーション検証は導入されない。
微調整のDMTD Qwen3-4Bモデルはすでに有望な結果を示しており、2倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 24.347862297812977
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Decoder-only transformers have become the standard architecture for large language models (LLMs) due to their strong performance. Recent studies suggest that, in pre-trained LLMs, early, middle, and late layers may serve distinct roles: Early layers focus on understanding the input context, middle layers handle task-specific processing, and late layers convert abstract representations into output tokens. We hypothesize that once representations have been processed by the early and middle layers, the resulting hidden states may encapsulate sufficient information to support the generation of multiple tokens using only the late layers, eliminating the need to repeatedly traverse the early and middle layers. We refer to this inference paradigm as Direct Multi-Token Decoding (DMTD). Unlike speculative decoding, our method introduces no additional parameters, auxiliary routines, or post-generation verification. Despite being trained on a limited dataset, a fine-tuned DMTD Qwen3-4B model has already demonstrated promising results, achieving up to a 2x speedup with only minor performance loss. Moreover, as shown in our scaling analysis, its performance is expected to further improve with larger training datasets.
- Abstract(参考訳): デコーダのみのトランスフォーマーは、その性能が強いため、大規模言語モデル(LLM)の標準アーキテクチャとなっている。
初期のレイヤは入力コンテキストを理解することに集中し、中間レイヤはタスク固有の処理を処理し、後期レイヤは抽象表現を出力トークンに変換する。
我々は、一度表現がアーリー層とミドル層によって処理されたら、結果として隠れた状態は、後期層のみを使用して複数のトークンの生成をサポートするのに十分な情報をカプセル化し、アーリー層とミドル層を繰り返す必要をなくすことができると仮定する。
この推論パラダイムをDMTD(Direct Multi-Token Decoding)と呼ぶ。
投機的復号法とは異なり,提案手法では追加パラメータや補助ルーチンやポストジェネレーション検証は導入されない。
限られたデータセットでトレーニングされているにもかかわらず、微調整のDMTD Qwen3-4Bモデルはすでに有望な結果を示しており、パフォーマンス損失がわずかである2倍のスピードアップを実現している。
さらに、スケーリング分析で示されているように、そのパフォーマンスはより大きなトレーニングデータセットでさらに向上することが期待されている。
関連論文リスト
- Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding [13.747101397628887]
大規模言語モデル(LLM)の高速化のためのエンドツーエンドのソリューションを提案する。
また,すべての変圧器層が同じ出口を共有できる早期の出口損失を,早期の層で低落率,後期の層で高落率,早期の出口損失に適用した。
このトレーニングレシピは、モデルに補助的なレイヤやモジュールを追加することなく、初期のレイヤでの早期退避の精度を高めることを示す。
論文 参考訳(メタデータ) (2024-04-25T16:20:23Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。