論文の概要: Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
- arxiv url: http://arxiv.org/abs/2502.06768v1
- Date: Mon, 10 Feb 2025 18:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:25.254456
- Title: Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
- Title(参考訳): 最悪の列車、ベストプラン:マスケ拡散におけるトーケン秩序の理解
- Authors: Jaeyeon Kim, Kulin Shah, Vasilis Kontonis, Sham Kakade, Sitan Chen,
- Abstract要約: 仮面拡散モデル (MDMs) は、離散領域にまたがる生成的モデリングのための有望な代替手法として登場した。
適応推論は、事前訓練されたMDMの精度を7$%から90$%に向上させ、ARMを7times$のパラメータで上回ります。
- 参考スコア(独自算出の注目度): 14.85882273040068
- License:
- Abstract: In recent years, masked diffusion models (MDMs) have emerged as a promising alternative approach for generative modeling over discrete domains. Compared to autoregressive models (ARMs), MDMs trade off complexity at training time with flexibility at inference time. At training time, they must learn to solve an exponentially large number of infilling problems, but at inference time, they can decode tokens in essentially arbitrary order. In this work, we closely examine these two competing effects. On the training front, we theoretically and empirically demonstrate that MDMs indeed train on computationally intractable subproblems compared to their autoregressive counterparts. On the inference front, we show that a suitable strategy for adaptively choosing the token decoding order significantly enhances the capabilities of MDMs, allowing them to sidestep hard subproblems. On logic puzzles like Sudoku, we show that adaptive inference can boost solving accuracy in pretrained MDMs from $<7$% to $\approx 90$%, even outperforming ARMs with $7\times$ as many parameters and that were explicitly trained via teacher forcing to learn the right order of decoding.
- Abstract(参考訳): 近年,個別領域に対する生成モデリングの代替としてマスク拡散モデル (MDM) が登場している。
自動回帰モデル(ARM)と比較して、MDMはトレーニング時の複雑性と推論時の柔軟性をトレードオフする。
トレーニング時には、指数関数的に多数の入力問題の解法を学ぶ必要があるが、推論時には、トークンを基本的に任意の順序で復号することができる。
本研究では,この2つの競合効果について詳しく検討する。
トレーニングの面では,MDMが自己回帰的なサブプロブレムに比べて,計算的に難解なサブプロブレムで学習できることを理論的,実証的に実証する。
推論面では、トークン復号順序を適応的に選択する適切な戦略がMDMの能力を大幅に向上させ、ハードサブプロブレムをサイドステップできることを示す。
Sudokuのような論理パズルでは、適応推論は事前訓練済みのMDMの解法精度を$<7$%から$\approx 90$%に向上させることができる。
関連論文リスト
- Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
学習時の難易度に基づいてサブゴールを優先する多粒性拡散モデリング(MDM)を提案する。
Countdown、Sudoku、Boolean Satisfiability Problemsといった複雑なタスクでは、MDMは検索テクニックを使わずに自己回帰モデルよりも優れている。
論文 参考訳(メタデータ) (2024-10-18T03:48:53Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文 参考訳(メタデータ) (2024-07-13T09:22:33Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - On Reinforcement Learning and Distribution Matching for Fine-Tuning
Language Models with no Catastrophic Forgetting [5.5302127686575435]
Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。
RM用に開発されたKL制御などの手法も,DMに属するものと解釈できることを示す。
2つのパラダイム間の接続を利用して、ベースラインの概念をDMメソッドにインポートします。
論文 参考訳(メタデータ) (2022-06-01T20:54:41Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。