論文の概要: What Makes Diffusion Language Models Super Data Learners?
- arxiv url: http://arxiv.org/abs/2510.04071v1
- Date: Sun, 05 Oct 2025 07:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.439891
- Title: What Makes Diffusion Language Models Super Data Learners?
- Title(参考訳): 拡散言語モデルがスーパーデータ学習者にとって何をもたらすか?
- Authors: Zitian Gao, Haoming Luo, Lynx Chen, Jason Klein Liu, Ran Tao, Joey Zhou, Bryan Dai,
- Abstract要約: 近年の研究では、拡散言語モデルが限定データ制約下で顕著なデータ効率を達成することが示されている。
本研究では,この効率の源泉を乱すための広範囲なアブレーション実験を行う。
- 参考スコア(独自算出の注目度): 6.752297327530013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that diffusion language models achieve remarkable data efficiency under limited-data constraints, yet the underlying mechanisms remain unclear. In this work, we perform extensive ablation experiments to disentangle the sources of this efficiency. Our results show that random masking of input tokens plays the dominant role. We further show that similar gains can be obtained through in MLP dropout and weight decay, indicating that stochastic regularization broadly enhances data efficiency in multi-epoch training. Our code is available at https://github.com/zitian-gao/data-efficiency.
- Abstract(参考訳): 近年の研究では、拡散言語モデルがデータ制限下で顕著なデータ効率を達成することが示されているが、その基盤となるメカニズムはいまだ不明である。
本研究では,この効率の源泉を乱すための広範囲なアブレーション実験を行う。
その結果,入力トークンのランダムマスキングが重要な役割を担っていることが明らかとなった。
さらに,マルチエポックトレーニングにおいて,確率正則化がデータ効率を広く向上させることを示す。
私たちのコードはhttps://github.com/zitian-gao/data-efficiency.comで利用可能です。
関連論文リスト
- Diffusion Beats Autoregressive in Data-Constrained Settings [46.06809870740238]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。
近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。
論文 参考訳(メタデータ) (2025-07-21T17:59:57Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Boosting Disfluency Detection with Large Language Model as Disfluency Generator [8.836888435915077]
本稿では,拡散検出のための軽量なデータ拡張手法を提案する。
拡張データとして,大言語モデル(LLM)を用いて不自由な文を生成する。
文の質を向上させるために不確実性を考慮したデータフィルタリング手法を適用する。
論文 参考訳(メタデータ) (2024-03-13T04:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。