論文の概要: Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning
- arxiv url: http://arxiv.org/abs/2509.15188v1
- Date: Thu, 18 Sep 2025 17:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.369867
- Title: Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning
- Title(参考訳): 畳み込み復号化と排他的微調整による高速・フルーレント拡散言語モデル
- Authors: Yeongbin Seo, Dongha Lee, Jaehyung Kim, Jinyoung Yeo,
- Abstract要約: Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
本稿では,デコードウインドウを狭める正規化法であるConal decoding (Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
- 参考スコア(独自算出の注目度): 23.58934174168992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) language models generate text one token at a time, which limits their inference speed. Diffusion-based language models offer a promising alternative, as they can decode multiple tokens in parallel. However, we identify a key bottleneck in current diffusion LMs: the long decoding-window problem, where tokens generated far from the input context often become irrelevant or repetitive. Previous solutions like semi-autoregressive address this issue by splitting windows into blocks, but this sacrifices speed and bidirectionality, eliminating the main advantage of diffusion models. To overcome this, we propose Convolutional decoding (Conv), a normalization-based method that narrows the decoding window without hard segmentation, leading to better fluency and flexibility. Additionally, we introduce Rejecting Rule-based Fine-Tuning (R2FT), a post-hoc training scheme that better aligns tokens at positions far from context. Our methods achieve state-of-the-art results on open-ended generation benchmarks (e.g., AlpacaEval) among diffusion LM baselines, with significantly lower step size than previous works, demonstrating both speed and quality improvements.
- Abstract(参考訳): Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
拡散ベースの言語モデルは、複数のトークンを並列にデコードできるため、有望な代替手段を提供する。
しかし、入力コンテキストから遠く離れたトークンが無関係あるいは反復的になるような長い復号-ウィンドウ問題である。
半自動回帰のような従来のソリューションは、ウィンドウをブロックに分割することでこの問題に対処するが、これは速度と双方向性を犠牲にして、拡散モデルの主な利点を排除している。
これを解決するために、ハードセグメンテーションなしでデコードウインドウを狭める正規化に基づく畳み込み復号法(Conv)を提案する。
さらに,Rejecting Rule-based Fine-Tuning (R2FT)を導入する。
本手法は,拡散型LMベースライン間のオープンエンド生成ベンチマーク(例えばAlpacaEval)について,従来よりもステップサイズが大幅に小さく,高速化と品質向上の両立を図っている。
関連論文リスト
- Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。