論文の概要: LLaDA2.1: Speeding Up Text Diffusion via Token Editing
- arxiv url: http://arxiv.org/abs/2602.08676v1
- Date: Mon, 09 Feb 2026 14:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.262523
- Title: LLaDA2.1: Speeding Up Text Diffusion via Token Editing
- Title(参考訳): LLaDA2.1: トークン編集によるテキスト拡散の高速化
- Authors: Tiwei Bie, Maosong Cao, Xiang Cao, Bingsen Chen, Fuyuan Chen, Kun Chen, Lun Du, Daozhuo Feng, Haibo Feng, Mingliang Gong, Zhuocheng Gong, Yanmei Gu, Jian Guan, Kaiyuan Guan, Hongliang He, Zenan Huang, Juyong Jiang, Zhonghui Jiang, Zhenzhong Lan, Chengxi Li, Jianguo Li, Zehuan Li, Huabin Liu, Lin Liu, Guoshan Lu, Yuan Lu, Yuxin Ma, Xingyu Mou, Zhenxuan Pan, Kaida Qiu, Yuji Ren, Jianfeng Tan, Yiding Tian, Zian Wang, Lanning Wei, Tao Wu, Yipeng Xing, Wentao Ye, Liangyu Zha, Tianze Zhang, Xiaolu Zhang, Junbo Zhao, Da Zheng, Hao Zhong, Wanli Zhong, Jun Zhou, Junlin Zhou, Liwang Zhu, Muzhi Zhu, Yihong Zhuang,
- Abstract要約: 我々は、復号速度と生成品質のトレードオフを超越するパラダイムシフトであるLLaDA2.1を発表した。
従来のマスク・ツー・Token(M2T)方式にT2T編集をシームレスに織り込むことで,共同でしきい値復号方式を導入する。
この構造的革新は、2つの異なるペルソナをもたらす: Speedy Mode (S Mode) は、M2T閾値を大胆に下げ、出力を洗練させるためにT2Tに依存しながら従来の制約を回避し、優れたベンチマークを確保するために保守的なしきい値に傾くQuality Mode (Q Mode) である。
- 参考スコア(独自算出の注目度): 72.92893150459909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.
- Abstract(参考訳): LLaDA2.0は100Bレベルのブロック拡散モデルのスケーリングポテンシャルとそれ固有の並列化を示したが、復号化速度と生成品質の微妙な平衡は未解決のフロンティアのままである。
今日、私たちはこのトレードオフを超越するために設計されたパラダイムシフトであるLLaDA2.1を公開します。
token-to-Token (T2T) 編集を従来の Mask-to-Token (M2T) 方式にシームレスに織り込むことで,共同で構成可能なしきい値復号方式を導入する。
この構造的革新は、M2T閾値を大胆に下げ、出力を洗練させるためにT2Tに依存しながら従来の制約をバイパスするSpeedy Mode(S Mode)と、管理可能な効率を低下させ、優れたベンチマークパフォーマンスを確保するために保守的なしきい値に傾注するQuality Mode(Q Mode)という2つの異なるペルソナを生み出します。
さらに,この進化の背景には,DLLMに特化して最適化された大規模強化学習(RL)フレームワークが実装されており,安定な勾配推定のための特殊な手法が組み込まれている。
このアライメントは推論の精度を向上するだけでなく、命令追従の忠実度を高め、拡散力学と複雑な人間の意図の間のチャズムをブリッジする。
LLaDA2.1-Mini (16B) および LLaDA2.1-Flash (100B) をリリースすることによって、この研究を成す。
33基の厳格なベンチマークで、LLaDA2.1は強力なタスク性能と光速復号速度を提供する。
100Bのボリュームにもかかわらず、コーディングタスクでは、HumanEval+で852 TPS、BigCodeBenchで801 TPS、LiveCodeBenchで633 TPSを達成している。
関連論文リスト
- LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.84156938318931]
LLaDA2.0 - 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。
LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。
LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
論文 参考訳(メタデータ) (2025-12-10T09:26:18Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language
Models [37.09385961422664]
大規模言語モデル(LLM)は、推論中に自己回帰生成を使用することが多く、高いメモリ帯域幅要求と拡張レイテンシをもたらす。
半自己回帰生成とドラフト検証によるLCMの高速化手法であるBiTA(Bi-directional Tuning for Losless Acceleration)を提案する。
提案されたBiTA、LLaMA-2-70B-ChatはMT-Benchベンチマークで2.7$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-01-23T06:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。