論文の概要: Diffusion Language Models are Super Data Learners
- arxiv url: http://arxiv.org/abs/2511.03276v1
- Date: Wed, 05 Nov 2025 08:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.384014
- Title: Diffusion Language Models are Super Data Learners
- Title(参考訳): 拡散言語モデルは超データ学習者である
- Authors: Jinjie Ni, Qian Liu, Longxu Dou, Chao Du, Zili Wang, Hang Yan, Tianyu Pang, Michael Qizhe Shieh,
- Abstract要約: ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
- 参考スコア(独自算出の注目度): 61.721441061210896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Under strictly controlled pre-training settings, we observe a Crossover: when unique data is limited, diffusion language models (DLMs) consistently surpass autoregressive (AR) models by training for more epochs. The crossover shifts later with more or higher-quality data, earlier with larger models, and persists across dense and sparse architectures. We attribute the gains to three compounding factors: (1) any-order modeling, (2) super-dense compute from iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation; input or parameter noise improves AR under data constraint but cannot close the gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B unique Python tokens overtakes an AR coder trained with strictly matched settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag and > 33% on MMLU using only 1B tokens, without any special tricks, just by repeating standard pre-training data. We also show that rising validation cross-entropy does not imply degraded downstream performance in this regime.
- Abstract(参考訳): 厳密な事前トレーニング設定の下では、クロスオーバーを観察する: ユニークなデータが制限されている場合、拡散言語モデル(DLM)は、より多くのエポックをトレーニングすることで、常に自己回帰モデル(AR)を上回ります。
クロスオーバーは後に、より多くあるいはより高品質なデータでシフトし、より大規模なモデルで、より密で疎結合なアーキテクチャで継続する。
本研究の目的は,(1)任意の順序モデリング,(2)反復的双方向認知からの超高密度計算,(3)モンテカルロ拡張,(3)データ制約下での入力ノイズやパラメータノイズによりARが向上するが,ギャップを埋めることができない,という3つの複合的要因に起因する。
大規模では、1.7BのDLMが1.5Tの計算予算でトレーニングされ、10BのユニークなPythonトークンでトレーニングされ、厳密にマッチした設定でトレーニングされたARコーダに取って代わられる。
さらに,1BパラメータDLMはHellaSwagでは56%,MMLUでは33%の精度を実現している。
また, クロスエントロピーの上昇は, 下流性能を低下させるものではないことを示した。
関連論文リスト
- MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - Diffusion Beats Autoregressive in Data-Constrained Settings [50.56893491038853]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。
近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。
本研究では,限られたデータ上で繰り返し学習を行うデータ制約付き環境で,マスク拡散モデルについて系統的に研究する。
我々の結果は、データが計算ではなくボトルネックである場合、拡散モデルは標準的なARパラダイムに代わる魅力的な代替手段となることを示唆している。
論文 参考訳(メタデータ) (2025-07-21T17:59:57Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。