論文の概要: Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct
- arxiv url: http://arxiv.org/abs/2509.25035v2
- Date: Wed, 01 Oct 2025 17:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.818658
- Title: Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct
- Title(参考訳): 離散拡散分散命令による超高速言語生成
- Authors: Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, Nan Jiang, Zheyuan Hu, Weijian Luo, Wei Deng, Guang Lin,
- Abstract要約: DiDi-Instructは、高速世代のために数ステップの学生を蒸留するトレーニングベースの方法である。
OpenWebText上でDiDi-Instructは62.2 (8 NFEs)から18.4 (128 NFEs)にパープレキシティを実現する
これらの利得には無視できるエントロピー損失(約1%)が伴い、競合するdLLM蒸留法と比較して、追加のトレーニングウォールタイム時間を20時間以上短縮する。
- 参考スコア(独自算出の注目度): 24.431216450821463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast and high-quality language generation is the holy grail that people pursue in the age of AI. In this work, we introduce Discrete Diffusion Divergence Instruct (DiDi-Instruct), a training-based method that initializes from a pre-trained (masked) discrete diffusion language model (dLLM) and distills a few-step student for fast generation. The resulting DiDi-Instruct model achieves comparable or superior performance to its dLLM teacher and the GPT-2 baseline while enabling up to 64$\times$ acceleration. The theoretical foundation of DiDi-Instruct is a novel framework based on integral KL-divergence minimization, which yields a practical training algorithm. We further introduce grouped reward normalization, intermediate-state matching, and the reward-guided ancestral sampler that significantly improve training stability, model coverage, and inference quality. On OpenWebText, DiDi-Instruct achieves perplexity from 62.2 (8 NFEs) to 18.4 (128 NFEs), which outperforms prior accelerated dLLMs and GPT-2 baseline. These gains come with a negligible entropy loss (around $1\%$) and reduce additional training wall-clock time by more than $20\times$ compared to competing dLLM distillation methods. We further validate the robustness and effectiveness of DiDi-Instruct through extensive ablation studies, model scaling, and the generation of discrete protein sequences. In conclusion, DiDi-Instruct is an efficient yet effective distillation method, enabling language generation in the blink of an eye. We will release both code and models at github.com/haoyangzheng-ai/didi-instruct.
- Abstract(参考訳): 高速で高品質な言語生成は、人々がAI時代に追求する聖杯です。
本研究では,事前学習された離散拡散言語モデル(dLLM)から初期化して,高速な生成のために数ステップの学生を蒸留するトレーニングベース手法であるDisdisrete Diffusion Divergence Instruct (DiDi-Instruct)を紹介する。
DiDi-Instructモデルは、最大64$\times$Accelerationを可能にしながら、dLLMの教師とGPT-2のベースラインと同等または優れたパフォーマンスを達成する。
DiDi-Instructの理論的基礎は、KL分割最小化に基づく新しいフレームワークであり、実用的なトレーニングアルゴリズムを生成する。
さらに,グループ化された報酬正規化,中間状態マッチング,およびトレーニング安定性,モデルカバレッジ,推論品質を著しく向上する報酬誘導祖先サンプリングを導入する。
OpenWebTextでは、DiDi-Instructは62.2 (8 NFEs)から18.4 (128 NFEs)にパープレキシティを達成し、それ以前の加速dLLMとGPT-2ベースラインより優れている。
これらの利得には無視できるエントロピー損失(約1\%$)が伴い、競合するdLLM蒸留法と比較して、追加のトレーニングウォールタイム時間を20\times$以上削減する。
さらに,DiDi-Instructの堅牢性と有効性について,広範囲なアブレーション研究,モデルスケーリング,離散タンパク質配列の生成を通じて検証した。
結論として、DiDi-Instructは効率的かつ効果的な蒸留法であり、目の瞬きにおける言語生成を可能にする。
github.com/haoyangzheng-ai/di-instruct.comで、コードとモデルの両方をリリースします。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - David and Goliath: Small One-step Model Beats Large Diffusion with Score Post-training [8.352666876052616]
Diff-Instruct* (DI*) は1ステップのテキスト・ツー・イメージ生成モデルのためのデータ効率のよいポストトレーニング手法である。
提案手法は,人的フィードバックからオンライン強化学習としてアライメントを行う。
我々の2.6B emphDI*-SDXL-1stepモデルは、50ステップのFLUX-devモデルより優れている。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。