論文の概要: ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding
- arxiv url: http://arxiv.org/abs/2512.13586v1
- Date: Mon, 15 Dec 2025 17:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.784513
- Title: ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding
- Title(参考訳): ReFusion: 並列自己回帰デコードによる拡散大言語モデル
- Authors: Jia-Nan Li, Jian Guan, Wei Wu, Chongxuan Li,
- Abstract要約: 自己回帰モデル(ARM)は、遅いシーケンシャル推論によって妨げられる。
本稿では,優れた性能と効率を実現するマスク付き拡散モデルReFusionを紹介する。
ReFusionは、2.33$timesの平均スピードアップを維持しながら、パフォーマンスギャップを強力なARMに橋渡しする。
- 参考スコア(独自算出の注目度): 37.86179431483446
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.
- Abstract(参考訳): 自己回帰モデル(ARM)は、遅いシーケンシャル推論によって妨げられる。
マスク付き拡散モデル(MDM)は並列的な代替手段を提供するが、キーバリュー(KV)キャッシングを前処理することによる高い計算オーバーヘッドや、難解なトークンの組み合わせの空間上での学習依存性から生じる一貫性のない生成など、重大な欠点に悩まされている。
これらの制約に対処するため,トークンレベルから高いスロットレベルへの並列復号化によって性能と効率を向上する新しいマスク拡散モデルReFusionを導入し,各スロットは固定長で連続的なサブシーケンスである。
拡散ベースの計画ステップは、まず弱い依存のスロットのセットを特定し、自己回帰的な埋め込みステップは、選択したスロットを並列にデコードする。
スロットベースの設計は、統一因果フレームワークで完全なKVキャッシュの再利用を同時にアンロックし、トークンの組み合わせ空間から管理可能なスロットレベルの置換空間への学習の複雑さを低減する。
7つの多様なベンチマークに関する大規模な実験は、ReFusionが従来のMDMを圧倒的に上回り、34%のパフォーマンス向上と平均18$\times$スピードアップを達成しただけでなく、2.33$\times$平均スピードアップを維持しながら、強力なARMにパフォーマンスギャップを橋渡ししたことを示している。
関連論文リスト
- Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - ToMA: Token Merge with Attention for Diffusion Models [8.079656935981193]
拡散モデルは高忠実度画像生成において優れるが、トランスフォーマーの二次的注意複雑さによる拡張性に限界がある。
本稿では,GPU整列効率のトークン削減を否定する市販のToMA(Token Merge with Attention)を提案する。
ToMAはSDXL/Flux生成遅延を24%/23%削減する(DINO $Delta 0.07$)。
論文 参考訳(メタデータ) (2025-09-13T17:35:00Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。