論文の概要: Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
- arxiv url: http://arxiv.org/abs/2502.06768v3
- Date: Tue, 19 Aug 2025 23:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.087169
- Title: Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
- Title(参考訳): 最悪の列車、ベストプラン:マスケ拡散におけるトーケン秩序の理解
- Authors: Jaeyeon Kim, Kulin Shah, Vasilis Kontonis, Sham Kakade, Sitan Chen,
- Abstract要約: 仮面拡散モデル (MDMs) は、離散領域にまたがる生成的モデリングのための有望な代替手法として登場した。
適応推論は、事前訓練されたMDMの精度を7$%から90$%に向上させ、ARMを7times$のパラメータで上回ります。
- 参考スコア(独自算出の注目度): 14.85882273040068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, masked diffusion models (MDMs) have emerged as a promising alternative approach for generative modeling over discrete domains. Compared to autoregressive models (ARMs), MDMs trade off complexity at training time with flexibility at inference time. At training time, they must learn to solve an exponentially large number of infilling problems, but at inference time, they can decode tokens in essentially arbitrary order. In this work, we closely examine these two competing effects. On the training front, we theoretically and empirically demonstrate that MDMs indeed train on computationally intractable subproblems compared to their autoregressive counterparts. On the inference front, we show that a suitable strategy for adaptively choosing the token decoding order significantly enhances the capabilities of MDMs, allowing them to sidestep hard subproblems. On logic puzzles like Sudoku, we show that adaptive inference can boost solving accuracy in pretrained MDMs from $<7$% to $\approx 90$%, even outperforming ARMs with $7\times$ as many parameters and that were explicitly trained via teacher forcing to learn the right order of decoding.
- Abstract(参考訳): 近年,個別領域に対する生成モデリングの代替としてマスク拡散モデル (MDM) が登場している。
自動回帰モデル(ARM)と比較して、MDMはトレーニング時の複雑性と推論時の柔軟性をトレードオフする。
トレーニング時には、指数関数的に多数の入力問題の解法を学ぶ必要があるが、推論時には、トークンを基本的に任意の順序で復号することができる。
本研究では,この2つの競合効果について詳しく検討する。
トレーニングの面では,MDMが自己回帰的なサブプロブレムに比べて,計算的に難解なサブプロブレムで学習できることを理論的,実証的に実証する。
推論面では、トークン復号順序を適応的に選択する適切な戦略がMDMの能力を大幅に向上させ、ハードサブプロブレムをサイドステップできることを示す。
Sudokuのような論理パズルでは、適応推論は事前訓練済みのMDMの解法精度を$<7$%から$\approx 90$%に向上させることができる。
関連論文リスト
- Learn from Your Mistakes: Self-Correcting Masked Diffusion Models [31.536464269884103]
マスク付き拡散モデル(MDM)は自己回帰モデルに代わる有望な代替品として登場している。
本研究では、モデルにアンマキングと修正の両方を行うよう訓練するフレームワークを提案する。
トレーニングとサンプリングの手法をProSeCo(Progressive Self-Correction)と名付けました。
論文 参考訳(メタデータ) (2026-02-12T05:17:31Z) - Stop Training for the Worst: Progressive Unmasking Accelerates Masked Diffusion Training [21.78753228511593]
Masked Diffusion Models (MDMs) は離散空間における生成モデリングのための有望なアプローチとして登場した。
MDMは指数関数的に大きなマスキングパターンのセットでトレーニングする。
本稿では,プログレッシブ・アンマスキング(PUMA)を提案する。プログレッシブ・アンマスキング(PUMA)は,トレーニング時間と推論時間のマスキングパターンを調整したフォワード・マスキングプロセスの簡単な修正である。
論文 参考訳(メタデータ) (2026-02-10T21:42:50Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - MDiff4STR: Mask Diffusion Model for Scene Text Recognition [59.79818820650126]
Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
論文 参考訳(メタデータ) (2025-12-01T08:57:51Z) - Masked Diffusion Models are Secretly Learned-Order Autoregressive Models [21.17429712617749]
Masked Diffusion Modelsは、トレーニング中にデコード順序を識別し、最適化できることを示す。
これらの命令に対してMDMの目的が正確に重み付けされた自己回帰的損失に分解されることを証明する。
論文 参考訳(メタデータ) (2025-11-24T14:17:56Z) - Any-Order Flexible Length Masked Diffusion [53.89217188409148]
マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
論文 参考訳(メタデータ) (2025-08-31T23:34:53Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs [1.1834200163382398]
ReGATE (Reference$-$Guided Adaptive Token Elision) はMLLMトレーニングを高速化するための適応トークンプルーニング手法である。
MVBenchの標準トレーニングのピーク精度は最大2$times$で、トークンの35%しか使用していない。
論文 参考訳(メタデータ) (2025-07-29T01:07:09Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.50902921493273]
異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。
DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。
提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文 参考訳(メタデータ) (2025-02-17T21:12:57Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z) - Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
学習時の難易度に基づいてサブゴールを優先する多粒性拡散モデリング(MDM)を提案する。
Countdown、Sudoku、Boolean Satisfiability Problemsといった複雑なタスクでは、MDMは検索テクニックを使わずに自己回帰モデルよりも優れている。
論文 参考訳(メタデータ) (2024-10-18T03:48:53Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文 参考訳(メタデータ) (2024-07-13T09:22:33Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - On Reinforcement Learning and Distribution Matching for Fine-Tuning
Language Models with no Catastrophic Forgetting [5.5302127686575435]
Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。
RM用に開発されたKL制御などの手法も,DMに属するものと解釈できることを示す。
2つのパラダイム間の接続を利用して、ベースラインの概念をDMメソッドにインポートします。
論文 参考訳(メタデータ) (2022-06-01T20:54:41Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。