論文の概要: Any-Order Flexible Length Masked Diffusion
- arxiv url: http://arxiv.org/abs/2509.01025v2
- Date: Sun, 07 Sep 2025 22:48:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.350667
- Title: Any-Order Flexible Length Masked Diffusion
- Title(参考訳): 任意のフレキシブル長仮面拡散
- Authors: Jaeyeon Kim, Lee Cheuk-Kit, Carles Domingo-Enrich, Yilun Du, Sham Kakade, Timothy Ngotiaoco, Sitan Chen, Michael Albergo,
- Abstract要約: マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
- 参考スコア(独自算出の注目度): 53.89217188409148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) have recently emerged as a promising alternative to autoregressive models over discrete domains. MDMs generate sequences in an any-order, parallel fashion, enabling fast inference and strong performance on non-causal tasks. However, a crucial limitation is that they do not support token insertions and are thus limited to fixed-length generations. To this end, we introduce Flexible Masked Diffusion Models (FlexMDMs), a discrete diffusion paradigm that simultaneously can model sequences of flexible length while provably retaining MDMs' flexibility of any-order inference. Grounded in an extension of the stochastic interpolant framework, FlexMDMs generate sequences by inserting mask tokens and unmasking them. Empirically, we show that FlexMDMs match MDMs in perplexity while modeling length statistics with much higher fidelity. On a synthetic maze planning task, they achieve $\approx 60 \%$ higher success rate than MDM baselines. Finally, we show pretrained MDMs can easily be retrofitted into FlexMDMs: on 16 H100s, it takes only three days to fine-tune LLaDA-8B into a FlexMDM, achieving superior performance on math (GSM8K, $58\% \to 67\%$) and code infilling performance ($52\% \to 65\%$).
- Abstract(参考訳): マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
MDMは任意の順序で並列なシーケンスを生成し、高速な推論と非因果的タスクの強いパフォーマンスを実現する。
しかし、重要な制限は、トークン挿入をサポートしておらず、したがって固定長世代に制限されていることである。
この目的のために、フレキシブルマスク付き拡散モデル(FlexMDMs)を導入し、任意の順序推論の柔軟性を維持しつつ、フレキシブルな長さのシーケンスを同時にモデル化できる離散拡散パラダイムを提案する。
確率的補間フレームワークの拡張で、FlexMDMはマスクトークンを挿入してそれらをアンマスクすることでシーケンスを生成する。
実験により,FlexMDMはMDMと複雑度を一致させながら,より高忠実度で長さ統計をモデル化することを示した。
合成迷路計画タスクでは、MDMベースラインよりも60 %以上の成功率を達成する。
16 H100sでは、LLaDA-8BをFlexMDMに微調整するのにわずか3日しかかからず、数学における優れた性能(GSM8K, 5,8\% \to 67\%$)とコード入力性能(52\% \to 65\%$)を達成する。
関連論文リスト
- Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions [32.48588058887852]
挿入言語モデル(ILM)は、任意の位置にトークンを挿入することを学ぶ。
ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、正確にシーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-05-09T03:29:15Z) - Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions [14.85882273040068]
仮面拡散モデル (MDMs) は、離散領域にまたがる生成的モデリングのための有望な代替手法として登場した。
適応推論は、事前訓練されたMDMの精度を7$%から90$%に向上させ、ARMを7times$のパラメータで上回ります。
論文 参考訳(メタデータ) (2025-02-10T18:47:21Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z) - Scaling up Masked Diffusion Models on Text [43.16800764711572]
仮面拡散モデル(MDM)は言語モデリングにおいて有望であることを示す。
本稿では,MDMのスケーリングに関する最初の法則を確立する。
我々は、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、そのパフォーマンスをより大きなサイズに対して評価する。
論文 参考訳(メタデータ) (2024-10-24T08:01:22Z) - Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
本稿では,学習時の難易度に基づいてサブゴールを優先する多粒度拡散モデリング(MGDM)を提案する。
MGDMは検索手法を使わずに自己回帰モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。