Fugu-MT 論文翻訳(概要): Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

論文の概要: Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

arxiv url: http://arxiv.org/abs/2502.06768v1
Date: Mon, 10 Feb 2025 18:47:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.723288
Title: Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
Title（参考訳）: 最悪の列車、ベストプラン:マスケ拡散におけるトーケン秩序の理解
Authors: Jaeyeon Kim, Kulin Shah, Vasilis Kontonis, Sham Kakade, Sitan Chen,
Abstract要約: 仮面拡散モデル (MDMs) は、離散領域にまたがる生成的モデリングのための有望な代替手法として登場した。適応推論は、事前訓練されたMDMの精度を7$%から90$%に向上させ、ARMを7times$のパラメータで上回ります。
参考スコア（独自算出の注目度）: 14.85882273040068
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, masked diffusion models (MDMs) have emerged as a promising alternative approach for generative modeling over discrete domains. Compared to autoregressive models (ARMs), MDMs trade off complexity at training time with flexibility at inference time. At training time, they must learn to solve an exponentially large number of infilling problems, but at inference time, they can decode tokens in essentially arbitrary order. In this work, we closely examine these two competing effects. On the training front, we theoretically and empirically demonstrate that MDMs indeed train on computationally intractable subproblems compared to their autoregressive counterparts. On the inference front, we show that a suitable strategy for adaptively choosing the token decoding order significantly enhances the capabilities of MDMs, allowing them to sidestep hard subproblems. On logic puzzles like Sudoku, we show that adaptive inference can boost solving accuracy in pretrained MDMs from $<7$% to $\approx 90$%, even outperforming ARMs with $7\times$ as many parameters and that were explicitly trained via teacher forcing to learn the right order of decoding.
Abstract（参考訳）: 近年,個別領域に対する生成モデリングの代替としてマスク拡散モデル (MDM) が登場している。自動回帰モデル(ARM)と比較して、MDMはトレーニング時の複雑性と推論時の柔軟性をトレードオフする。トレーニング時には、指数関数的に多数の入力問題の解法を学ぶ必要があるが、推論時には、トークンを基本的に任意の順序で復号することができる。本研究では,この2つの競合効果について詳しく検討する。トレーニングの面では,MDMが自己回帰的なサブプロブレムに比べて,計算的に難解なサブプロブレムで学習できることを理論的,実証的に実証する。推論面では、トークン復号順序を適応的に選択する適切な戦略がMDMの能力を大幅に向上させ、ハードサブプロブレムをサイドステップできることを示す。 Sudokuのような論理パズルでは、適応推論は事前訓練済みのMDMの解法精度を$<7$%から$\approx 90$%に向上させることができる。

関連論文リスト

ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs [1.1834200163382398]
ReGATE (Reference$-$Guided Adaptive Token Elision) はMLLMトレーニングを高速化するための適応トークンプルーニング手法である。 MVBenchの標準トレーニングのピーク精度は最大2$times$で、トークンの35%しか使用していない。
論文参考訳（メタデータ） (2025-07-29T01:07:09Z)
Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。 Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。 Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文参考訳（メタデータ） (2025-05-29T11:40:34Z)
From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.50902921493273]
異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。 DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文参考訳（メタデータ） (2025-02-17T21:12:57Z)
Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。 MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-09T20:02:05Z)
Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。学習時の難易度に基づいてサブゴールを優先する多粒性拡散モデリング(MDM)を提案する。 Countdown、Sudoku、Boolean Satisfiability Problemsといった複雑なタスクでは、MDMは検索テクニックを使わずに自己回帰モデルよりも優れている。
論文参考訳（メタデータ） (2024-10-18T03:48:53Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文参考訳（メタデータ） (2024-07-13T09:22:33Z)
DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文参考訳（メタデータ） (2024-03-02T12:31:22Z)
Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。 CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-28T17:47:32Z)
CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文参考訳（メタデータ） (2023-08-31T09:13:30Z)
Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文参考訳（メタデータ） (2023-03-28T15:39:28Z)
On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting [5.5302127686575435]
Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。 RM用に開発されたKL制御などの手法も,DMに属するものと解釈できることを示す。 2つのパラダイム間の接続を利用して、ベースラインの概念をDMメソッドにインポートします。
論文参考訳（メタデータ） (2022-06-01T20:54:41Z)
KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文参考訳（メタデータ） (2020-09-11T21:48:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。