論文の概要: Looped Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.26106v1
- Date: Mon, 25 May 2026 17:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.655618
- Title: Looped Diffusion Language Models
- Title(参考訳): ループ拡散言語モデル
- Authors: Sanghyun Lee, Chunsan Hong, Seungryong Kim, Jonghyun Lee, Jongho Park, Dongmin Park,
- Abstract要約: マスケード拡散モデル(MDM)は、言語モデリングのための自己回帰モデルに代わる有望な代替品として登場した。
初期中間変圧器層を選択的にループすることで,MDMのトレーニング効率とモデル性能が向上することを示す。
- 参考スコア(独自算出の注目度): 47.8566079047557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) have emerged as a promising alternative to autoregressive models for language modeling, yet the effective design of transformer architectures for MDMs remains underexplored. In this paper, we show that selectively looping the early-middle transformer layers significantly improves both training efficiency and model performance in MDMs. We call this approach LoopMDM(Looped Masked Diffusion Model), which brings two key benefits: looping layers at training-time yields a depth-scaling effect without adding parameters, while varying the number of loops at inference-time enables flexible compute scaling. Despite the simplicity, the results are striking: across multiple pre-training corpora, LoopMDM matches the performance of same-size MDMs with up to 3.3 fewer training FLOPs, while its final performance outperforms them on various reasoning benchmarks, including up to 8.5 points on GSM8K. It even surpasses deeper non-looped MDMs trained with comparable per-step compute, indicating that selective looping is more effective than naive depth scaling. Furthermore, LoopMDM can scale inference-time compute by increasing the number of loops. Adaptively adjusting the number of loops throughout the sampling process further yields additional gains in compute efficiency while maintaining performance. Lastly, with attention analysis, we provide evidence that looping is effective in MDMs by promoting interactions among masked positions. Our code and weights will be publicly released.
- Abstract(参考訳): マスケード拡散モデル(MDM)は言語モデリングにおける自己回帰モデルに代わる有望な代替として登場したが、MDMのためのトランスフォーマーアーキテクチャの効果的な設計はいまだ検討されていない。
本稿では,MDMのトレーニング効率とモデル性能の両面において,初期中間変圧器層を選択的にループする手法を提案する。
このアプローチはLoopMDM(Looped Masked Diffusion Model)と呼ばれ、トレーニング時にレイヤーをループすることでパラメータを追加せずにディープスケーリング効果が得られます。
LoopMDMは複数の事前学習コーパスにおいて、最大3.3のトレーニングFLOPで同一サイズのMDMのパフォーマンスと一致し、最終的なパフォーマンスはGSM8Kの8.5ポイントを含む様々な推論ベンチマークでパフォーマンスを上回っている。
さらに、ステップごとの計算で訓練された深い非ループのMDMを超えており、選択ループは単純な深さスケーリングよりも効果的であることを示している。
さらに、LoopMDMは、ループ数を増やすことで、推論時間計算をスケールできる。
サンプリングプロセス全体を通してループ数を適応的に調整すると、性能を維持しながら演算効率がさらに向上する。
最後に,注目分析により,マスク位置間の相互作用を促進することにより,ループがMDMに有効であることを示す。
コードと重みは公開されます。
関連論文リスト
- Structured Recurrent Mixers for Massively Parallelized Sequence Generation [0.0]
本稿では,列車時のシーケンス並列表現と推論時のリカレント表現との変換を可能にするアーキテクチャであるStructured Recurrent Mixerを紹介する。
この二重表現は、他の線形複雑性モデルと比較して、トレーニング効率が向上し、入力情報のキャパシティが向上し、推論スループットと長さが向上することを示す。
論文 参考訳(メタデータ) (2026-05-09T05:07:55Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - Masked Diffusion Models are Secretly Learned-Order Autoregressive Models [21.17429712617749]
Masked Diffusion Modelsは、トレーニング中にデコード順序を識別し、最適化できることを示す。
これらの命令に対してMDMの目的が正確に重み付けされた自己回帰的損失に分解されることを証明する。
論文 参考訳(メタデータ) (2025-11-24T14:17:56Z) - Sparse Training Scheme for Multimodal LLM [26.81140959413325]
MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。
スパース・トレーニング・スキーム(STS)と呼ばれるスパース表現に基づく新しい学習効率向上フレームワークを提案する。
このスキームは、ビジュアルトークンを圧縮することで情報負荷を削減するVisual Tokenと、前方および後方の両方で言語モデルの不要なレイヤをスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-09-16T11:33:20Z) - Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling [48.96034602889216]
Variencoding Discrete Diffusion (VADD) は、潜在変数モデリングによる離散拡散を強化する新しいフレームワークである。
補助的認識モデルを導入することにより、VADDはトレーニングセット上の変分下界と償却推論を介して安定したトレーニングを可能にする。
2Dトイデータ、画素レベルの画像生成、テキスト生成に関する実証結果は、VADDがMDMベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-23T01:45:47Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。