論文の概要: BlockGen: Flexible Blockwise Sequence Modeling with Hybrid Samplers
- arxiv url: http://arxiv.org/abs/2606.02241v1
- Date: Mon, 01 Jun 2026 13:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.109307
- Title: BlockGen: Flexible Blockwise Sequence Modeling with Hybrid Samplers
- Title(参考訳): BlockGen: ハイブリッドサンプリングによる柔軟なブロックワイドシーケンスモデリング
- Authors: Justin Deschenaux, Caglar Gulcehre,
- Abstract要約: マスクと均一拡散の両方でインスタンス化するブロックワイズシーケンスモデルであるBlockGenを導入する。
BlockGenは、ARと拡散予測を組み合わせたARインフォームド予測-コレクタサンプリング(ARPC)を可能にし、不可能なトークンを再生成する。
GSM8Kのブロックサイズは16ドルであり、MDMはUSDMよりもわずかに精度が高く、OpenWebTextのGenerative Perplexityでも同様の傾向が観察されている。
- 参考スコア(独自算出の注目度): 12.083218729202963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is the uniform-state diffusion framework a more powerful paradigm for discrete diffusion? Recent studies indicate that this may be the case. In combination with predictor-corrector samplers, uniform-state diffusion models (USDMs) produce samples of higher-quality than masked diffusion models (MDMs), and USDMs equal or outperform MDMs in downstream tasks, even though they exhibit greater perplexity. Two issues remain unresolved. First, existing work compares uniform and masked diffusion with un-informed correctors that re-inject noise at random positions, rather than targeting tokens most likely to be wrong. Second, prior work compares full-sequence diffusion models, so we do not know whether the same conclusion holds when tokens are generated block by block. To address these issues, we introduce BlockGen, a blockwise sequence model that we instantiate with both masked and uniform diffusion. BlockGen trains on a mixture of block sizes and its likelihood interpolates between AR and pure diffusion more finely than models with a fixed block size. BlockGen enables AR-informed predictor-corrector sampling (ARPC), which combines AR and diffusion predictions to re-generate unlikely tokens without an auxiliary verifier. Under ancestral sampling, uniform outperforms masked in the block-by-block setting, especially in the few-step regime. Under ARPC, the gap closes and reverses at high NFE. With block size $16$ on GSM8K, MDMs reach slightly higher accuracy than USDMs, and we observe a similar trend in Generative Perplexity on OpenWebText. Find our code at https://github.com/jdeschena/blockgen.
- Abstract(参考訳): 均一状態拡散フレームワークは離散拡散のより強力なパラダイムか?
近年の研究では、このことが示唆されている。
均一状態拡散モデル(USDM)は、予測・相関型サンプリング器と組み合わせて、マスク拡散モデル(MDM)よりも高品質なサンプルを生成する。
2つの問題が未解決のままである。
まず、既存の研究は均一な拡散とマスク付き拡散をランダムな位置でノイズを再注入する非インフォームド整形器と比較する。
第二に、先行研究は全列拡散モデルと比較するので、トークンがブロック単位で生成されるときに同じ結論が成立するかどうかは不明です。
これらの問題に対処するために、マスクと均一拡散の両方でインスタンス化するブロックワイズシーケンスモデルであるBlockGenを導入する。
BlockGenはブロックサイズと、その可能性でARと純粋な拡散を補間し、固定ブロックサイズを持つモデルよりも微妙に訓練する。
BlockGenは、ARと拡散予測を組み合わせたARインフォームド予測-コレクタサンプリング(ARPC)を可能にし、補助検証なしで不可能なトークンを再生成する。
祖先のサンプリングでは、特に数段階の状況において、ブロック・バイ・ブロック設定で均一なパフォーマンスがマスクされる。
ARPCでは、ギャップが閉じて、高いNFEで逆になる。
GSM8Kのブロックサイズは16ドルであり、MDMはUSDMよりもわずかに精度が高く、OpenWebTextのGenerative Perplexityでも同様の傾向が観察されている。
コードをhttps://github.com/jdeschena/blockgen.comで見つける。
関連論文リスト
- On the Trainability of Masked Diffusion Language Models via Blockwise Locality [58.92209096047332]
マスク付き拡散言語モデル (MDMs) は、最近、標準自己回帰型大言語モデル (AR-LLMs) に代わる有望な代替品として登場した。
ブロックワイズMDMを解析し,AR-LLMと比較し,構造生成の異なる側面を強調する3つの制御タスクについて検討した。
標準ランダムマスキングMDMは線形回帰を確実に学習できず、グラフパスフィニングにおいて高分散トレーニングダイナミクスを示し、スドクではAR-LLMよりも優れていた。
論文 参考訳(メタデータ) (2026-04-27T17:44:26Z) - Scaling Beyond Masked Diffusion Language Models [18.68471174706656]
本稿では、一様状態と補間離散拡散法の最初のスケーリング法則について述べる。
単純なクロスエントロピーで学習すると,Masked拡散モデルによりFLOPs効率が約12%向上することを示す。
論文 参考訳(メタデータ) (2026-02-16T18:54:47Z) - Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion [26.45111031153368]
ブロック拡散モデルに固有の不可逆性とミオピア問題を克服する「ドラフト・then-refine」フレームワークを提案する。
提案手法は,OpenWebTextデータセット上での離散拡散モデルに対する新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2026-01-20T05:00:26Z) - From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs [58.640039233470766]
原理的AR-to-block-diffusion適応は,DLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることを示す。
NBDiff-7B(BaseとInstruct)は、長文のモデリングと推論機能を継承し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-07T10:28:21Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Remasking Discrete Diffusion Models with Inference-Time Scaling [21.362017006523086]
マスク付き拡散モデルに適用可能な手法であるリマスキー拡散モデル(ReMDM)を原則的に導入する。
最も興味深いことに、ReMDMは推論時間計算スケーリングの形で離散拡散を許容する。
論文 参考訳(メタデータ) (2025-03-01T02:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。