論文の概要: Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding
- arxiv url: http://arxiv.org/abs/2602.23792v1
- Date: Fri, 27 Feb 2026 08:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.322934
- Title: Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding
- Title(参考訳): Divide and Conquer: 適応並列デコーディングによる拡散に基づく大規模言語モデルの高速化
- Authors: Xiangzhong Luo, Yilin An, Zhicheng Yu, Weichen Liu, Xu Yang,
- Abstract要約: 拡散に基づく大規模言語モデル(dLLM)は、様々な推論タスクで有望なパフォーマンスを示している。
適応型並列復号法であるDiCoを導入し,三相分割コンカレントパラダイムを特徴とする。
大規模な実験により、DiCoは競争力のある生成品質を維持しながら、大きな推論スピードアップを達成できることが示された。
- 参考スコア(独自算出の注目度): 6.755667885643806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based large language models (dLLMs) have shown promising performance across various reasoning tasks, establishing themselves as an alternative to autoregressive large language models (LLMs). Unlike autoregressive LLMs that generate one token per step based on all previous tokens, dLLMs theoretically enable parallel generation of multiple tokens at each decoding step. However, recent dLLMs still favor one-token-per-step generation in practice, as directly decoding multiple masked tokens often leads to degraded generation quality and stability. This reveals a substantial gap between the theoretical parallelism and practical performance of dLLMs. To bridge this gap, we introduce an adaptive parallel decoding approach, namely DiCo, which features a three-phase divide-and-conquer paradigm to unleash the inherent parallelism of dLLMs. During the Divide phase, DiCo first explores the input masked sequence and identifies masked tokens as seed tokens, which are then expanded to construct a set of local clusters. During the Conquer phase, DiCo performs parallel decoding across different local clusters constructed in the Divide phase. The divide-and-conquer process repeatedly alternates between the Divide and Conquer phases until convergence. During the Finalize phase, DiCo decodes the remaining few masked tokens using an effective fine-grained compound decoding scheme to finalize the generation. Extensive experiments demonstrate that DiCo can achieve significant inference speedups while maintaining competitive generation quality.
- Abstract(参考訳): 拡散に基づく大規模言語モデル (dLLM) は様々な推論タスクにおいて有望な性能を示しており、自己回帰型大規模言語モデル (LLM) に代わるものとして確立されている。
すべての前のトークンに基づいて1ステップごとに1つのトークンを生成する自動回帰LDMとは異なり、dLLMは理論上、各デコードステップで複数のトークンを並列に生成できる。
しかし、近年のdLLMでは、複数のマスク付きトークンを直接デコードすることで、生成品質と安定性が低下することが多いため、実際には1段階ずつの生成が好まれている。
このことは、dLLMの理論的並列性と実践的性能の間にかなりのギャップがあることを明らかにする。
このギャップを埋めるために、我々は適応並列復号法、すなわち、dLLMの固有の並列性を解き放つために、3相の分割・対数パラダイムを特徴とするDiCoを導入する。
ディバイドフェーズの間、DiCoは最初に入力されたマスク付きシーケンスを探索し、マスク付きトークンをシードトークンとして識別し、その後、ローカルクラスタのセットを構築するように拡張する。
Conquerフェーズの間、DiCoはDivideフェーズで構築された異なるローカルクラスタ間で並列デコーディングを行う。
分断・分断過程は、収束するまで、分断相と分断相を交互に交互に交互に交互に行う。
ファイナライズフェーズにおいて、DiCoは、生成を確定するために有効な微細な複合復号法を用いて、残りの数個のマスクトークンをデコードする。
大規模な実験により、DiCoは競争力のある生成品質を維持しながら、大きな推論スピードアップを達成できることが示された。
関連論文リスト
- Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Diffusion Language Models are Provably Optimal Parallel Samplers [15.981424915336001]
拡散言語モデル (DLM) は自己回帰モデルに代わる有望な代替品として登場した。
DLMをチェーン・オブ・シークエンスで拡張することで,任意の並列サンプリングアルゴリズムを最適なステップ数でシミュレートできることを示す。
論文 参考訳(メタデータ) (2025-12-31T18:03:05Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding [21.609237262034636]
大規模言語モデル(LLM)における自己回帰復号には、$n$トークンに対して$mathcalO(n)$シーケンシャルステップが必要である。
本稿では,並列デコード学習(Learn2PD)を提案する。これは軽量かつ適応的なフィルタモデルをトレーニングし,各トークン位置に対して,現在の予測が最終出力と一致するかどうかを予測するフレームワークである。
この学習されたフィルタは、正しく予測された場合にのみトークンをアンマスクするオラクル並列復号法を近似する。
論文 参考訳(メタデータ) (2025-09-29T17:59:54Z) - METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。