論文の概要: Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct
- arxiv url: http://arxiv.org/abs/2509.25035v1
- Date: Mon, 29 Sep 2025 16:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.139484
- Title: Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct
- Title(参考訳): 離散拡散分散命令による超高速言語生成
- Authors: Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, Nan Jiang, Zheyuan Hu, Weijian Luo, Wei Deng, Guang Lin,
- Abstract要約: DiDi-Instructは、高速言語生成モデルにつながるトレーニングベースの手法である。
OpenWebTextでは、DiDi-Instructはすべてのアクセラレーションされた言語生成モデルより優れています。
- 参考スコア(独自算出の注目度): 24.431216450821463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast generation of language texts is the holy grail that people pursue in the AI era. In this work, we introduced Discrete Diffusion Divergence Instruct (DiDi-Instruct), a training-based method that leads to fast language generation models by initializing from a pre-trained (masked) discrete diffusion language model (dLLM). The resulting DiDi-Instruct model outperforms the dLLM counterparts and the GPT-2 baseline with 64x acceleration. In the theoretical part of the paper, we build the foundation of DiDi-Instruct in a framework of integral KL-divergence minimization, with practical training algorithms. We also introduce techniques like grouped reward normalization, intermediate-state matching, and the reward-guided ancestral sampler (RGAS) that significantly improve the training stability, the model coverage, and the inference performances. On OpenWebText, DiDi-Instruct outperforms all accelerated language generation models as well as the GPT-2 baseline and the standard dLLMs, achieving sample perplexities ranging from 62.2 (8 NFEs) to 18.4 (128 NFEs). These performance gains are accomplished with a negligible entropy loss of about 1% and 20x less additional training wall-clock time. We further validate the robustness and effectiveness of DiDi-Instruct through extensive ablation studies, model scaling, and the generation of discrete protein sequences. In conclusion, DiDi-Instruct is an efficient yet effective distillation method, enabling language generation in the blink of an eye. We will release both code and models at github.com/haoyangzheng-ai/didi-instruct.
- Abstract(参考訳): 言語のテキストの高速生成は、人々がAI時代に追求する聖杯です。
本研究では,事前学習した(仮装した)離散拡散言語モデル(dLLM)から初期化することにより,高速な言語生成モデルを実現するトレーニングベース手法であるDisdisrete Diffusion Divergence Instruct (DiDi-Instruct)を紹介した。
結果のDiDi-Instructモデルは、64xアクセラレーションでdLLMとGPT-2ベースラインを上回っている。
論文の理論的部分では、実用的な学習アルゴリズムを用いて、KL分割最小化の枠組みを用いて、DiDi-Instructの基礎を構築する。
また、グループ化された報酬正規化、中間状態マッチング、およびトレーニング安定性、モデルカバレッジ、推論性能を大幅に向上させる報酬誘導祖先サンプリング(RGAS)といった手法も導入する。
OpenWebText では、DiDi-Instruct は GPT-2 ベースラインと標準 dLLM だけでなく、全ての加速言語生成モデルよりも優れており、62.2 (8 NFEs) から 18.4 (128 NFEs) のサンプルパープレシティを達成している。
これらの性能向上は、負のエントロピー損失約1%と20倍のトレーニングウォールタイムで達成される。
さらに,DiDi-Instructの堅牢性と有効性について,広範囲なアブレーション研究,モデルスケーリング,離散タンパク質配列の生成を通じて検証した。
結論として、DiDi-Instructは効率的かつ効果的な蒸留法であり、目の瞬きにおける言語生成を可能にする。
github.com/haoyangzheng-ai/di-instruct.comで、コードとモデルの両方をリリースします。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - David and Goliath: Small One-step Model Beats Large Diffusion with Score Post-training [8.352666876052616]
Diff-Instruct* (DI*) は1ステップのテキスト・ツー・イメージ生成モデルのためのデータ効率のよいポストトレーニング手法である。
提案手法は,人的フィードバックからオンライン強化学習としてアライメントを行う。
我々の2.6B emphDI*-SDXL-1stepモデルは、50ステップのFLUX-devモデルより優れている。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。