論文の概要: Diffusion LLM with Native Variable Generation Lengths: Let [EOS] Lead the Way
- arxiv url: http://arxiv.org/abs/2510.24605v1
- Date: Tue, 28 Oct 2025 16:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.273827
- Title: Diffusion LLM with Native Variable Generation Lengths: Let [EOS] Lead the Way
- Title(参考訳): 可変生成長を持つ拡散LDM:[EOS]を先導させる
- Authors: Yicun Yang, Cong Wang, Shaobo Wang, Zichen Wen, Biqing Qi, Hanlin Xu, Linfeng Zhang,
- Abstract要約: 拡散に基づく大規模言語モデル (dLLMs) は、並列テキスト生成にかなりの可能性を秘めている。
現在のdLLMは、デコード前にdLLMの生成長を決定する必要があることを示す固定生成長に悩まされている。
本稿では,dLLM-Var と略して,固有変数生成長を持つ拡散 LLM の学習を提案する。
- 参考スコア(独自算出の注目度): 23.877854550033224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based large language models (dLLMs) have exhibited substantial potential for parallel text generation, which may enable more efficient generation compared to autoregressive models. However, current dLLMs suffer from fixed generation lengths, which indicates the generation lengths of dLLMs have to be determined before decoding as a hyper-parameter, leading to issues in efficiency and flexibility. To solve these problems, in this work, we propose to train a diffusion LLM with native variable generation lengths, abbreviated as dLLM-Var. Concretely, we aim to train a model to accurately predict the [EOS] token in the generated text, which makes a dLLM be able to natively infer in a block diffusion manner, while still maintaining the ability of global bi-directional (full) attention and high parallelism. Experiments on standard benchmarks demonstrate that our method achieves a 30.1x speedup over traditional dLLM inference paradigms and a 2.4x speedup relative to autoregressive models such as Qwen and Llama. Our method achieves higher accuracy and faster inference, elevating dLLMs beyond mere academic novelty and supporting their practical use in real-world applications. Codes and models have been released.
- Abstract(参考訳): 拡散に基づく大規模言語モデル (dLLMs) は, 自動回帰モデルよりも効率の良い並列テキスト生成の可能性を示した。
しかし、現在のdLLMは固定生成長に悩まされており、これはdLLMの生成長がハイパーパラメータとしてデコードされる前に決定されなければならないことを示し、効率と柔軟性の問題がある。
これらの問題を解決するため,本研究では,dLLM-Varと略して,固有変数生成長を持つ拡散LDMを訓練することを提案する。
具体的には、生成されたテキスト中の[EOS]トークンを正確に予測するためにモデルをトレーニングすることを目的としており、これにより、グローバルな双方向(フル)の注意力と高い並列性を維持しつつ、ブロック拡散方式でdLLMをネイティブに推論することができる。
標準ベンチマーク実験により,従来のdLLM推論パラダイムよりも30.1倍の高速化を実現し,QwenやLlamaといった自己回帰モデルと比較して2.4倍の高速化を実現した。
提案手法は,より高精度かつ高速な推論を実現し,単なる学問的ノベルティを超えてdLLMを上昇させ,実世界の応用におけるそれらの実践的利用を支援する。
コードとモデルがリリースされた。
関連論文リスト
- Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing [14.22753953706955]
Diffusion Large Language Models (dLLMs) は、テキスト生成のための自動回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、離散拡散強制(D2F)と呼ばれる単純かつ効果的な戦略に基づいて、この障壁を破る。
このようにして、バニラdLLMは効率的な推論のためにAR拡散ハイブリッドパラダイムに再構成される。
論文 参考訳(メタデータ) (2025-08-08T04:51:37Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching [27.114862565164145]
拡散に基づく大規模言語モデルは、反復的にマスキングされたセグメントによってテキストを生成する。
dLLMは高い推論遅延に悩まされる。
従来のARMアクセラレーション技術は、dLLMと互換性がない。
トレーニング不要な適応型キャッシュフレームワークであるdLLM-Cacheを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:50:46Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。