論文の概要: Stop Training for the Worst: Progressive Unmasking Accelerates Masked Diffusion Training
- arxiv url: http://arxiv.org/abs/2602.10314v1
- Date: Tue, 10 Feb 2026 21:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.29511
- Title: Stop Training for the Worst: Progressive Unmasking Accelerates Masked Diffusion Training
- Title(参考訳): プログレッシブ・アンマスキング・アクセラレーションによるマズーク拡散訓練の中止
- Authors: Jaeyeon Kim, Jonathan Geuter, David Alvarez-Melis, Sham Kakade, Sitan Chen,
- Abstract要約: Masked Diffusion Models (MDMs) は離散空間における生成モデリングのための有望なアプローチとして登場した。
MDMは指数関数的に大きなマスキングパターンのセットでトレーニングする。
本稿では,プログレッシブ・アンマスキング(PUMA)を提案する。プログレッシブ・アンマスキング(PUMA)は,トレーニング時間と推論時間のマスキングパターンを調整したフォワード・マスキングプロセスの簡単な修正である。
- 参考スコア(独自算出の注目度): 21.78753228511593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Models (MDMs) have emerged as a promising approach for generative modeling in discrete spaces. By generating sequences in any order and allowing for parallel decoding, they enable fast inference and strong performance on non-causal tasks. However, this flexibility comes with a training complexity trade-off: MDMs train on an exponentially large set of masking patterns, which is not only computationally expensive, but also creates a train--test mismatch between the random masks used in training and the highly structured masks induced by inference-time unmasking. In this work, we propose Progressive UnMAsking (PUMA), a simple modification of the forward masking process that aligns training-time and inference-time masking patterns, thereby focusing optimization on inference-aligned masks and speeding up training. Empirically, PUMA speeds up pretraining at the 125M scale by $\approx 2.5\times$ and offers complementary advantages on top of common recipes like autoregressive initialization. We open-source our codebase at https://github.com/JaeyeonKim01/PUMA.
- Abstract(参考訳): Masked Diffusion Models (MDMs) は離散空間における生成モデリングのための有望なアプローチとして登場した。
任意の順序でシーケンスを生成し、並列デコードを可能にすることで、高速な推論と非因果的タスクの強いパフォーマンスを実現する。
しかし、この柔軟性には、トレーニングの複雑さのトレードオフがある: MDMは指数関数的に大きなマスキングパターンを訓練する。これは計算コストが高いだけでなく、トレーニングで使用されるランダムマスクと、推論時間アンマスキングによって引き起こされる高度に構造化されたマスクとのミスマッチも生成する。
本研究では,プログレッシブ・アンマスキング(PUMA)を提案する。プログレッシブ・アンマスキング(PUMA)は,プログレッシブ・アンマスキング(PUMA)において,トレーニング時間と推論時間のマスキングパターンを調整し,推論・アライン・マスクに最適化を集中させ,トレーニングを高速化する。
実証的に、PUMAは125Mスケールでの事前トレーニングを$\approx 2.5\times$でスピードアップし、自動回帰初期化のような一般的なレシピの上に補完的なアドバンテージを提供する。
コードベースはhttps://github.com/JaeyeonKim01/PUMA.comでオープンソース化しています。
関連論文リスト
- MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions [14.85882273040068]
仮面拡散モデル (MDMs) は、離散領域にまたがる生成的モデリングのための有望な代替手法として登場した。
適応推論は、事前訓練されたMDMの精度を7$%から90$%に向上させ、ARMを7times$のパラメータで上回ります。
論文 参考訳(メタデータ) (2025-02-10T18:47:21Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Masking meets Supervision: A Strong Learning Alliance [45.04910405404371]
Masked Sub-branch (MaskSub) と呼ばれるマスク強化を取り入れた新しい手法を提案する。
メインブランチは通常のトレーニングレシピを実行し、サブブランチはトレーニング中に集中的なマスク強化を行う。
MaskSubは、自己蒸留損失と同様の緩和された損失関数を通じて悪影響を緩和することで、この課題に取り組む。
論文 参考訳(メタデータ) (2023-06-20T07:17:38Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Difference-Masking: Choosing What to Mask in Continued Pretraining [56.76782116221438]
本研究では,事前訓練中のマスクを自動的に選択するマスキング戦略である差分マスキングを導入する。
差分マスキングは、4つの言語のみ、マルチモーダルなビデオタスクにおいて、継続した事前学習設定のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-23T23:31:02Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Accelerated Sparse Neural Training: A Provable and Efficient Method to
Find N:M Transposable Masks [28.498176073737422]
最近、研究者はN:M$のきめ細かいブロック空間マスクを使用してディープニューラルネットワーク重み(DNN)を刈り取ることを提案した。
前方と後方の両方に同じマスクを使用できる新しいトランスポジブル細粒スパーシティマスクを提案します。
実験では,視覚モデルと言語モデルに対する精度低下を伴わない2倍の速度アップを提案する。
論文 参考訳(メタデータ) (2021-02-16T12:44:16Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。