論文の概要: Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion
- arxiv url: http://arxiv.org/abs/2601.13599v2
- Date: Wed, 21 Jan 2026 18:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.175908
- Title: Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion
- Title(参考訳): 拡散における拡散:半自己回帰拡散におけるグローバルコヒーレンス回復
- Authors: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang,
- Abstract要約: ブロック拡散モデルに固有の不可逆性とミオピア問題を克服する「ドラフト・then-refine」フレームワークを提案する。
提案手法は,OpenWebTextデータセット上での離散拡散モデルに対する新しいベンチマークを設定する。
- 参考スコア(独自算出の注目度): 26.45111031153368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.
- Abstract(参考訳): グローバルな離散拡散言語モデルの最も魅力的な特徴の1つは、そのグローバルな双方向コンテキスト能力である。
しかし、既存のブロックベースの拡散研究は自己回帰的先行性を導入しがちであり、利点を提供する一方で、モデルがマクロレベルでこのグローバルコヒーレンスを失う可能性がある。
半自己回帰的パラダイムの利点を保ちながら,グローバルな文脈理解を取り戻すために,ブロック拡散モデルに固有の不可逆性と近視的問題を克服するために,拡散の拡散(Diffusion in Diffusion)を提案する。
提案手法では,まずブロック拡散を用いて小さなブロックを用いて高速なドラフトを生成する。
我々は、スナップショットの信頼回復を利用して、修正を必要とする最も重要なトークンを特定し、ブロック拡散モデルのグローバル機能を拡張するためにミックススケールトレーニングを適用する。
実験により,本手法はOpenWebTextデータセット上に離散拡散モデルのための新しいベンチマークを設定できることが実証された。
ベースラインモデルの微調整予算の26%しか使用せず、生成パープレキシティを25.7から21.9に削減し、自動回帰モデルのパフォーマンスギャップを著しく狭める。
関連論文リスト
- Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models [15.853201399662344]
拡散言語モデルは自己回帰モデルよりも独特な利点を提供する。
確率モデリングに遅れがあり、固定長生成に制限される。
本稿では,離散化拡散モデルと自己回帰モデルとを補間するブロック拡散言語モデルについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:43:40Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Lipschitz Singularities in Diffusion Models [64.28196620345808]
拡散モデルは、零点付近の時間変数に関して、しばしばネットワークの無限のリプシッツ特性を示す。
ゼロ点近傍の拡散モデルのリプシッツ特異点を緩和する新しい手法 E-TSDM を提案する。
我々の研究は、一般拡散過程の理解を深め、拡散モデルの設計に関する洞察を提供するかもしれない。
論文 参考訳(メタデータ) (2023-06-20T03:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。