論文の概要: FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2509.20624v1
- Date: Wed, 24 Sep 2025 23:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.628908
- Title: FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models
- Title(参考訳): FS-DFM:Few-Step Diffusion Language Modelを用いた高速かつ高精度な長文生成
- Authors: Amin Karimi Monsefi, Nikhil Bhendawade, Manuel Rafael Ciosici, Dominic Culver, Yizhe Zhang, Irina Belousova,
- Abstract要約: FS-DFM, Few-Step Discrete Flow-Matchingを紹介する。
品質を犠牲にすることなく高速に設計された離散フローマッチングモデル。
言語モデリングベンチマークでは、8つのサンプリングステップを持つFS-DFMが1,024ステップの離散フローベースラインでパープレキシティパリティを達成する。
- 参考スコア(独自算出の注目度): 6.463102424844334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive language models (ARMs) deliver strong likelihoods, but are inherently serial: they generate one token per forward pass, which limits throughput and inflates latency for long sequences. Diffusion Language Models (DLMs) parallelize across positions and thus appear promising for language generation, yet standard discrete diffusion typically needs hundreds to thousands of model evaluations to reach high quality, trading serial depth for iterative breadth. We introduce FS-DFM, Few-Step Discrete Flow-Matching. A discrete flow-matching model designed for speed without sacrificing quality. The core idea is simple: make the number of sampling steps an explicit parameter and train the model to be consistent across step budgets, so one big move lands where many small moves would. We pair this with a reliable update rule that moves probability in the right direction without overshooting, and with strong teacher guidance distilled from long-run trajectories. Together, these choices make few-step sampling stable, accurate, and easy to control. On language modeling benchmarks, FS-DFM with 8 sampling steps achieves perplexity parity with a 1,024-step discrete-flow baseline for generating 1,024 tokens using a similar-size model, delivering up to 128 times faster sampling and corresponding latency/throughput gains.
- Abstract(参考訳): 自動回帰言語モデル(ARM)は強い可能性を提供するが、本質的にシリアルである。
拡散言語モデル(DLM)は、位置を並列化し、言語生成に有望なように見えるが、標準的な離散拡散は通常、高品質で連続的な深度を繰り返すために、数百から数千のモデル評価を必要とする。
FS-DFM, Few-Step Discrete Flow-Matchingを紹介する。
品質を犠牲にすることなく高速に設計された離散フローマッチングモデル。
サンプリングステップの数を明示的なパラメータとし、ステップ予算全体にわたって一貫性のあるモデルをトレーニングする。
我々はこれを、オーバーシュートせずに確率を正しい方向に移動させる信頼性の高い更新規則と、長期軌跡から抽出した強力な教師指導との組み合わせとする。
これらの選択によって、数ステップのサンプリングが安定し、正確で、制御が容易になる。
言語モデリングベンチマークでは、8つのサンプリングステップを持つFS-DFMが1,024ステップの離散フローベースラインでパープレキシティパリティを達成し、同様のサイズのモデルを用いて1,024トークンを生成し、最大128倍のサンプリングとそれに対応するレイテンシ/スループットゲインを提供する。
関連論文リスト
- Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - State Fourier Diffusion Language Model (SFDLM): A Scalable, Novel Iterative Approach to Language Modeling [0.0]
本稿では,変圧器や大きな畳み込みモジュールを使わずに構築した完全拡散駆動離散テキスト生成モデルを提案する。
ローカルな状態空間の更新をグローバルなFourierベースのミキシングと組み合わせることで、このアプローチはショートおよびロングレンジの依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2025-03-16T02:17:40Z) - Self-Refining Diffusion Samplers: Enabling Parallelization via Parareal Iterations [53.180374639531145]
自己精製拡散サンプリング(SRDS)は、サンプル品質を維持し、追加の並列計算コストでレイテンシを向上させることができる。
微分方程式の並列時間積分法であるPararealアルゴリズムから着想を得た。
論文 参考訳(メタデータ) (2024-12-11T11:08:09Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Accelerating Large Language Model Decoding with Speculative Sampling [9.851546623666588]
投機的サンプリング(英: Speculative sample)とは、変換器の呼び出し毎に複数のトークンを生成することで、変換器の復号を高速化するアルゴリズムである。
我々は、70億のパラメータ言語モデルであるChinchillaを用いて投機的サンプリングをベンチマークし、分散セットアップで2-2.5倍のデコード速度を達成する。
論文 参考訳(メタデータ) (2023-02-02T18:44:11Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。