論文の概要: LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding
- arxiv url: http://arxiv.org/abs/2512.16229v1
- Date: Thu, 18 Dec 2025 06:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.946351
- Title: LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding
- Title(参考訳): LoPA: Lookahead並列デコードによるdLLM推論のスケーリング
- Authors: Chenkai Xu, Yijie Jin, Jiajun Li, Yi Tu, Guoping Long, Dandan Tu, Tianqi Hou, Junchi Yan, Zhijie Deng,
- Abstract要約: Lookahead PArallel Decoding LoPAは、訓練不要のプラグイン・アンド・プレイアルゴリズムで、優れたToken Filling Order(TFO)を識別する。
LoPAは並列ブランチを通じて、異なる候補TFOを同時に探索し、ブランチの信頼性に基づいて、将来の並列性に対して最も高い可能性を持つものを選択する。
特に,LoPAはD2F-DreamのTPFをGSM8K上で10.1に向上させ,Dreamベースラインよりも優れた性能を維持した。
- 参考スコア(独自算出の注目度): 56.37815256929827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Large Language Models (dLLMs) have demonstrated significant potential for high-speed inference. However, current confidence-driven decoding strategies are constrained by limited parallelism, typically achieving only 1--3 tokens per forward pass (TPF). In this work, we identify that the degree of parallelism during dLLM inference is highly sensitive to the Token Filling Order (TFO). Then, we introduce Lookahead PArallel Decoding LoPA, a training-free, plug-and-play algorithm, to identify a superior TFO and hence accelerate inference. LoPA concurrently explores distinct candidate TFOs via parallel branches, and selects the one with the highest potential for future parallelism based on branch confidence. We apply LoPA to the state-of-the-art D2F model and observe a substantial enhancement in decoding efficiency. Notably, LoPA increases the TPF of D2F-Dream to 10.1 on the GSM8K while maintaining performance superior to the Dream baseline. Furthermore, to facilitate this unprecedented degree of parallelism, we develop a specialized multi-device inference system featuring Branch Parallelism (BP), which achieves a single-sample throughput of 1073.9 tokens per second under multi-GPU deployment. The code is available at https://github.com/zhijie-group/LoPA.
- Abstract(参考訳): 拡散大言語モデル (dLLMs) は高速推論に有意な可能性を証明している。
しかしながら、現在の信頼性駆動の復号化戦略は、制限された並列性によって制約され、通常、前方通過(TPF)当たり1--3トークンしか達成できない。
本研究では,dLLM推論における並列性の度合いが,Token Filling Order (TFO) に非常に敏感であることを示す。
そこで,Lookahead PArallel Decoding LoPA(学習不要でプラグアンドプレイのアルゴリズム)を導入し,優れたTFOを同定し,推論を高速化する。
LoPAは並列ブランチを通じて、異なる候補TFOを同時に探索し、ブランチの信頼性に基づいて、将来の並列性に対して最も高い可能性を持つものを選択する。
現状のD2FモデルにLoPAを適用し、復号効率の大幅な向上を観察する。
特に、LoPAはD2F-DreamのTPFをGSM8Kで10.1に増やし、Dreamベースラインよりも優れた性能を維持している。
さらに、この先例のない並列性を実現するために、分岐並列性(BP)を特徴とする特殊なマルチデバイス推論システムを開発し、マルチGPUデプロイメントにおいて毎秒1073.9トークンの単一サンプルスループットを実現する。
コードはhttps://github.com/zhijie-group/LoPAで公開されている。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding [21.609237262034636]
大規模言語モデル(LLM)における自己回帰復号には、$n$トークンに対して$mathcalO(n)$シーケンシャルステップが必要である。
本稿では,並列デコード学習(Learn2PD)を提案する。これは軽量かつ適応的なフィルタモデルをトレーニングし,各トークン位置に対して,現在の予測が最終出力と一致するかどうかを予測するフレームワークである。
この学習されたフィルタは、正しく予測された場合にのみトークンをアンマスクするオラクル並列復号法を近似する。
論文 参考訳(メタデータ) (2025-09-29T17:59:54Z) - Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing [14.22753953706955]
Diffusion Large Language Models (dLLMs) は、テキスト生成のための自動回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、離散拡散強制(D2F)と呼ばれる単純かつ効果的な戦略に基づいて、この障壁を破る。
このようにして、バニラdLLMは効率的な推論のためにAR拡散ハイブリッドパラダイムに再構成される。
論文 参考訳(メタデータ) (2025-08-08T04:51:37Z) - FlowSpec: Continuous Pipelined Speculative Decoding for Efficient Distributed LLM Inference [9.279335822985441]
分散推論は、ネットワークエッジでの大規模言語モデル(LLM)の推論を可能にするための有望なアプローチとして機能する。
最近のパイプラインベースのアプローチは、通信と計算を並列化する可能性があり、推論遅延を減らすのに役立つ。
パイプライン並列ツリーベースの投機的復号化フレームワークであるFlowSpecを提案する。
論文 参考訳(メタデータ) (2025-07-03T13:47:42Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。