論文の概要: Dynamic Chunking for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.15676v1
- Date: Fri, 15 May 2026 06:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.201146
- Title: Dynamic Chunking for Diffusion Language Models
- Title(参考訳): 拡散言語モデルのための動的チャンキング
- Authors: Yichen Zhu, Xiaoming Shi, Peng Zhao, Weiyu Chen, Debing Zhang, James Kwok,
- Abstract要約: ブロック離散拡散言語モデルは、固定サイズの位置ブロック上で自己回帰的にシーケンスを分解する。
textbfDynamic textbfChunking textbfDiffusion textbfModel (DCDM)を紹介する。
DCDMは、位置ブロックをコンテンツ定義セマンティックチャンクに置き換える。
- 参考スコア(独自算出の注目度): 39.198939178122714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block discrete diffusion language models factorize a sequence autoregressively over fixed-size positional blocks, decoupling within-block parallel denoising from across-block conditioning. We argue that this rigid partition wastes structure already present in the sequence: blocks defined by position rather than by content separate semantically coherent tokens and group unrelated ones together. We introduce the \textbf{D}ynamic \textbf{C}hunking \textbf{D}iffusion \textbf{M}odel (DCDM), which replaces positional blocks with content-defined semantic chunks. At its core is Chunking Attention, a differentiable layer that routes tokens into $K$ clusters parameterized by learnable subspaces and shaped end-to-end by the diffusion objective. The resulting cluster assignments induce a chunk-causal attention mask under which a discrete diffusion denoiser factorizes the sequence likelihood autoregressively over semantic chunks, strictly generalizing block discrete diffusion. On downstream benchmarks at parameter scales up to 1.5B, DCDM consistently improves over both unstructured and positional-block diffusion baselines, with the advantage stable across scales and visible early in training.
- Abstract(参考訳): ブロック離散拡散言語モデルは、ブロック内並列化をブロック間条件から切り離して、固定サイズの位置ブロック上で自己回帰的にシーケンスを分解する。
この厳密な分割構造は、意味的に一貫性のあるトークンを分離し、無関係なトークンをまとめてグループ化するのではなく、位置によって定義されるブロックというシーケンスに既に存在する構造を無駄にしている、と我々は主張する。
我々は、位置ブロックをコンテンツ定義セマンティックチャンクに置き換える、textbf{D}ynamic \textbf{C}hunking \textbf{D}iffusion \textbf{M}odel (DCDM)を導入する。
コアとなるChunking Attentionは、トークンを学習可能なサブスペースでパラメータ化された$K$クラスタにルーティングし、拡散目標によってエンドツーエンドを形成する、微分可能なレイヤである。
得られたクラスタ割り当ては、離散拡散復号器がセマンティックチャンク上で自己回帰的にシーケンスを分解し、ブロック離散拡散を厳密に一般化するチャンク因果注意マスクを誘導する。
パラメータのダウンストリームベンチマークは1.5Bまでスケールするが、DCDMは非構造化と位置ブロックの拡散ベースラインの両方を一貫して改善する。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - On the Role of Discreteness in Diffusion LLMs [69.64854287505999]
拡散過程と言語モデリングの観点を再考し、拡散力学と言語固有の要件を分離する5つの特性を概説する。
i) 均一な汚職は、どのように情報を配置するかを尊重せず、 (ii) トークンワイドの辺縁トレーニングは、並列デコーディング中にマルチトークンの依存関係をキャプチャできない。
これらの観察は、テキストの構造とより密接に一致した拡散過程を動機付け、より一貫性のある拡散言語モデルに向けた将来の研究を促進する。
論文 参考訳(メタデータ) (2025-12-27T16:03:08Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models [15.853201399662344]
拡散言語モデルは自己回帰モデルよりも独特な利点を提供する。
確率モデリングに遅れがあり、固定長生成に制限される。
本稿では,離散化拡散モデルと自己回帰モデルとを補間するブロック拡散言語モデルについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。