論文の概要: Any-Order Flexible Length Masked Diffusion
- arxiv url: http://arxiv.org/abs/2509.01025v2
- Date: Sun, 07 Sep 2025 22:48:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.350667
- Title: Any-Order Flexible Length Masked Diffusion
- Title(参考訳): 任意のフレキシブル長仮面拡散
- Authors: Jaeyeon Kim, Lee Cheuk-Kit, Carles Domingo-Enrich, Yilun Du, Sham Kakade, Timothy Ngotiaoco, Sitan Chen, Michael Albergo,
- Abstract要約: マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
- 参考スコア(独自算出の注目度): 53.89217188409148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) have recently emerged as a promising alternative to autoregressive models over discrete domains. MDMs generate sequences in an any-order, parallel fashion, enabling fast inference and strong performance on non-causal tasks. However, a crucial limitation is that they do not support token insertions and are thus limited to fixed-length generations. To this end, we introduce Flexible Masked Diffusion Models (FlexMDMs), a discrete diffusion paradigm that simultaneously can model sequences of flexible length while provably retaining MDMs' flexibility of any-order inference. Grounded in an extension of the stochastic interpolant framework, FlexMDMs generate sequences by inserting mask tokens and unmasking them. Empirically, we show that FlexMDMs match MDMs in perplexity while modeling length statistics with much higher fidelity. On a synthetic maze planning task, they achieve $\approx 60 \%$ higher success rate than MDM baselines. Finally, we show pretrained MDMs can easily be retrofitted into FlexMDMs: on 16 H100s, it takes only three days to fine-tune LLaDA-8B into a FlexMDM, achieving superior performance on math (GSM8K, $58\% \to 67\%$) and code infilling performance ($52\% \to 65\%$).
- Abstract(参考訳): マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
MDMは任意の順序で並列なシーケンスを生成し、高速な推論と非因果的タスクの強いパフォーマンスを実現する。
しかし、重要な制限は、トークン挿入をサポートしておらず、したがって固定長世代に制限されていることである。
この目的のために、フレキシブルマスク付き拡散モデル(FlexMDMs)を導入し、任意の順序推論の柔軟性を維持しつつ、フレキシブルな長さのシーケンスを同時にモデル化できる離散拡散パラダイムを提案する。
確率的補間フレームワークの拡張で、FlexMDMはマスクトークンを挿入してそれらをアンマスクすることでシーケンスを生成する。
実験により,FlexMDMはMDMと複雑度を一致させながら,より高忠実度で長さ統計をモデル化することを示した。
合成迷路計画タスクでは、MDMベースラインよりも60 %以上の成功率を達成する。
16 H100sでは、LLaDA-8BをFlexMDMに微調整するのにわずか3日しかかからず、数学における優れた性能(GSM8K, 5,8\% \to 67\%$)とコード入力性能(52\% \to 65\%$)を達成する。
関連論文リスト
- DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking [13.905201743303214]
マスク付き拡散モデル(MDM)は、アンマスクの位置を反復的に選択し、それらの位置でトークンを予測することによってテキストを生成する。
ELBOは、試験時間分布ではなく、トレーニング分布の下ではゆるやかに境界づけられている。
我々は,決定論的位置選択を形式化し,主要なMDMサンプリング戦略を統一するtextscDUELフレームワークを導入する。
論文 参考訳(メタデータ) (2026-03-02T01:56:03Z) - Unifying Masked Diffusion Models with Various Generation Orders and Beyond [56.70289720766803]
仮面拡散モデル(MDM)は、言語生成のための自己回帰モデル(ARM)の潜在的な代替品である。
広範な拡散生成過程のための秩序表現型マスク拡散モデル(OeMDM)を提案する。
生成順序と拡散バックボーンを共同で学習する学習順マスク拡散モデル(LoMDM)を導入する。
論文 参考訳(メタデータ) (2026-02-02T13:54:32Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models [63.50827603618498]
提案するSparse-LaViDaは,MDMサンプリングを高速化するために,各推論ステップで不要なマスク付きトークンをトランケートするモデリングフレームワークである。
最先端の統一MDM LaViDa-Oをベースに構築されたSparse-LaViDaは、さまざまなタスクで最大2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-12-16T02:06:06Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions [32.48588058887852]
挿入言語モデル(ILM)は、任意の位置にトークンを挿入することを学ぶ。
ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、正確にシーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-05-09T03:29:15Z) - Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions [14.85882273040068]
仮面拡散モデル (MDMs) は、離散領域にまたがる生成的モデリングのための有望な代替手法として登場した。
適応推論は、事前訓練されたMDMの精度を7$%から90$%に向上させ、ARMを7times$のパラメータで上回ります。
論文 参考訳(メタデータ) (2025-02-10T18:47:21Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z) - Scaling up Masked Diffusion Models on Text [43.16800764711572]
仮面拡散モデル(MDM)は言語モデリングにおいて有望であることを示す。
本稿では,MDMのスケーリングに関する最初の法則を確立する。
我々は、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、そのパフォーマンスをより大きなサイズに対して評価する。
論文 参考訳(メタデータ) (2024-10-24T08:01:22Z) - Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
本稿では,学習時の難易度に基づいてサブゴールを優先する多粒度拡散モデリング(MGDM)を提案する。
MGDMは検索手法を使わずに自己回帰モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。