論文の概要: Diffusion In Diffusion: Breaking the Autoregressive Bottleneck in Block Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.13599v1
- Date: Tue, 20 Jan 2026 05:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.159221
- Title: Diffusion In Diffusion: Breaking the Autoregressive Bottleneck in Block Diffusion Models
- Title(参考訳): 拡散における拡散:ブロック拡散モデルにおける自己回帰型ボトルネックの破断
- Authors: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang,
- Abstract要約: 半自己回帰的パラダイムとして機能するブロック拡散言語モデルは、自己回帰的パラダイムと拡散的パラダイムの両方の長所を組み合わせる。
彼らの厳密な一方向ブロック依存は、拡散モデルが有名であるグローバルな計画能力の不可逆性を導入し、犠牲にする。
本稿では,ブロック拡散モデルに固有の不可逆性とミオピア問題を克服するために,ディフュージョン・イン・ディフュージョン(Diffusion in Diffusion)を提案する。
- 参考スコア(独自算出の注目度): 26.45111031153368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block diffusion language models, operating as semi-autoregressive paradigms, combine the strengths of both autoregressive and diffusion paradigms. However, their strict unidirectional block dependencies introduce irreversibility and sacrifice the global planning capabilities for which diffusion models are renowned. In order to address these issues, we propose Diffusion in Diffusion, a draft-then-refine framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilise snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using just 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.
- Abstract(参考訳): 半自己回帰的パラダイムとして機能するブロック拡散言語モデルは、自己回帰的パラダイムと拡散的パラダイムの両方の長所を組み合わせる。
しかし、その厳密な一方向ブロック依存は、拡散モデルが有名である世界的な計画能力を犠牲にし、不可逆性をもたらす。
これらの問題に対処するために,ブロック拡散モデルに固有の不可逆性とミオピア問題に対処するために,Diffusion in Diffusionを提案する。
提案手法では,まずブロック拡散を用いて小さなブロックを用いて高速なドラフトを生成する。
我々は、スナップショットの信頼回復を利用して、修正を必要とする最も重要なトークンを特定し、ブロック拡散モデルのグローバル機能を拡張するためにミックススケールトレーニングを適用する。
実験により,提案手法はOpenWebTextデータセット上に離散拡散モデルのための新しいベンチマークを設定できることが実証された。
ベースラインモデルの微調整予算の26%しか使わず、生成の難易度を25.7から21.9に減らし、自動回帰モデルのパフォーマンスギャップを著しく狭める。
関連論文リスト
- Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - MADFormer: Mixed Autoregressive and Diffusion Transformers for Continuous Image Generation [32.945437908689286]
我々は,AR拡散トレードオフを解析するためのテストベッドとして機能するMixed Autoregressive Diffusion and Transformerを紹介する。
1)高分解能画像の性能はブロック分割により著しく向上し,(2)ARと拡散層を垂直に混合すると,FIDが最大75%向上する。
論文 参考訳(メタデータ) (2025-06-09T17:59:01Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation [13.250999667915254]
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。
ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:52:41Z) - Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models [15.853201399662344]
拡散言語モデルは自己回帰モデルよりも独特な利点を提供する。
確率モデリングに遅れがあり、固定長生成に制限される。
本稿では,離散化拡散モデルと自己回帰モデルとを補間するブロック拡散言語モデルについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:43:40Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Lipschitz Singularities in Diffusion Models [64.28196620345808]
拡散モデルは、零点付近の時間変数に関して、しばしばネットワークの無限のリプシッツ特性を示す。
ゼロ点近傍の拡散モデルのリプシッツ特異点を緩和する新しい手法 E-TSDM を提案する。
我々の研究は、一般拡散過程の理解を深め、拡散モデルの設計に関する洞察を提供するかもしれない。
論文 参考訳(メタデータ) (2023-06-20T03:05:28Z) - David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs [49.822063966687175]
拡散に基づく言語モデルは、自己回帰型LMに代わる有望な選択肢として浮上している。
我々は最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する方法を提案する。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
論文 参考訳(メタデータ) (2023-05-24T06:22:14Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。