論文の概要: SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving
- arxiv url: http://arxiv.org/abs/2603.02599v1
- Date: Tue, 03 Mar 2026 04:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.641182
- Title: SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving
- Title(参考訳): SUN: 効率的なマルチLLM分散処理における次点予測の共有利用
- Authors: Sunghyeon Woo, Ahreum Seo, Jaegwang Lee, Jaeeun Kil, Hanbae Seo, Joonghoon Kim, Baeseong Park, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: Shared Use of Next-Token Prediction (SUN)は、非集約型マルチLLMサービスにおけるデコード実行のクロスモデル共有を可能にする最初のアプローチである。
SUNはデコーダのみのトランスフォーマーをプリフィルモジュールとデコードモジュールに分解し、タスク固有のプリフィルモジュールのみを微調整する。
SUNは、より少ないデコードワーカーでシステムのスループットを維持しながら、フル微調整に匹敵する精度を実現している。
- 参考スコア(独自算出の注目度): 13.532126327392652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-model LLM serving, decode execution remains inefficient due to model-specific resource partitioning: since cross-model batching is not possible, memory-bound decoding often suffers from severe GPU underutilization, especially under skewed workloads. We propose Shared Use of Next-token Prediction (SUN), the first approach that enables cross-model sharing of decode execution in disaggregated multi-LLM serving. SUN decomposes a decoder-only Transformer into a prefill module and a decode module, and fine-tunes only the task-specific prefill module, enabling a frozen decode module to be shared across models. This design enables a model-agnostic decode routing policy that balances decode requests across shared workers to maximize utilization. Across diverse tasks and model families, SUN achieves accuracy comparable to full fine-tuning while maintaining system throughput with fewer decode workers. In particular, SUN improves throughput per GPU by up to 2.0x over conventional disaggregation while keeping time-per-output-token (TPOT) within 5%. SUN inherently enables and facilitates low-bit decoding; with Quantized SUN (QSUN), it achieves a 45% speedup with comparable accuracy to SUN while preserving the benefits of shared decoding.
- Abstract(参考訳): マルチモデル LLM サービスでは、デコード実行はモデル固有のリソースパーティショニングのため効率的ではない。
本稿では,非集約型マルチLLMサービスにおけるデコード実行のクロスモデル共有を可能にする手法として,次世代予測(SUN)の共有利用を提案する。
SUNはデコーダのみのトランスフォーマーをプリフィルモジュールとデコードモジュールに分解し、タスク固有のプリフィルモジュールのみを微調整することで、フリーズされたデコードモジュールをモデル間で共有できるようにする。
この設計により、モデルに依存しないデコードルーティングポリシーが実現され、共有ワーカー間でデコード要求のバランスをとり、利用を最大化する。
多様なタスクやモデルファミリにわたって、SUNは、より少ないデコードワーカーでシステムのスループットを維持しながら、完全な微調整に匹敵する精度を達成する。
特に、SUNは、タイム・パー・アウトプット・トケン(TPOT)を5%に抑えながら、従来のデアグリゲーションよりも、GPU当たりのスループットを最大2.0倍改善する。
量子化SUN(QSUN)では、共有デコーディングの利点を保ちながら、SUNと同等の精度で45%のスピードアップを達成する。
関連論文リスト
- Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - PrefillShare: A Shared Prefill Module for KV Reuse in Multi-LLM Disaggregated Serving [13.817047500501786]
マルチエージェントシステムは、複雑な現実世界の問題を解決するために複数の特殊言語モデルを編成する。
各モデルはプリフィルステージを実行し、独自のキー値キャッシュを保持し、集約されたプリフィルロードを増やし、テール遅延を悪化させる。
そこで本研究では,複数のモデル間でプレフィルステージを分離した設定で共有するアルゴリズムであるPrefillShareを提案する。
論文 参考訳(メタデータ) (2026-02-12T14:59:50Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。
エンコーディングとプリフィルをバンドルする現在のシステムとは異なり、私たちのアプローチはこれらのステップを分離し、新たな機会と最適化を解放します。
一般的なLMMを用いた実験では、メモリ効率(ピークメモリ使用率の最大15倍)、バッチサイズ(最大22倍)、リクエストあたり10倍のイメージ、および2.2倍のKVキャッシュが大幅に向上した。
論文 参考訳(メタデータ) (2024-12-25T10:11:31Z) - An Independence-promoting Loss for Music Generation with Language Models [64.95095558672996]
音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
論文 参考訳(メタデータ) (2024-06-04T13:44:39Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。