論文の概要: What Makes Diffusion Language Models Super Data Learners?
- arxiv url: http://arxiv.org/abs/2510.04071v1
- Date: Sun, 05 Oct 2025 07:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.439891
- Title: What Makes Diffusion Language Models Super Data Learners?
- Title(参考訳): 拡散言語モデルがスーパーデータ学習者にとって何をもたらすか?
- Authors: Zitian Gao, Haoming Luo, Lynx Chen, Jason Klein Liu, Ran Tao, Joey Zhou, Bryan Dai,
- Abstract要約: 近年の研究では、拡散言語モデルが限定データ制約下で顕著なデータ効率を達成することが示されている。
本研究では,この効率の源泉を乱すための広範囲なアブレーション実験を行う。
- 参考スコア(独自算出の注目度): 6.752297327530013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that diffusion language models achieve remarkable data efficiency under limited-data constraints, yet the underlying mechanisms remain unclear. In this work, we perform extensive ablation experiments to disentangle the sources of this efficiency. Our results show that random masking of input tokens plays the dominant role. We further show that similar gains can be obtained through in MLP dropout and weight decay, indicating that stochastic regularization broadly enhances data efficiency in multi-epoch training. Our code is available at https://github.com/zitian-gao/data-efficiency.
- Abstract(参考訳): 近年の研究では、拡散言語モデルがデータ制限下で顕著なデータ効率を達成することが示されているが、その基盤となるメカニズムはいまだ不明である。
本研究では,この効率の源泉を乱すための広範囲なアブレーション実験を行う。
その結果,入力トークンのランダムマスキングが重要な役割を担っていることが明らかとなった。
さらに,マルチエポックトレーニングにおいて,確率正則化がデータ効率を広く向上させることを示す。
私たちのコードはhttps://github.com/zitian-gao/data-efficiency.comで利用可能です。
関連論文リスト
- Diffusion Beats Autoregressive in Data-Constrained Settings [46.06809870740238]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。
近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。
論文 参考訳(メタデータ) (2025-07-21T17:59:57Z) - Distributional Training Data Attribution: What do Influence Functions Sample? [25.257922996567178]
分散学習データ属性(d-TDA)を導入する。
d-TDAの目標は、モデル出力の分布がデータセットに依存するかを予測することである。
影響関数 (IF) は「秘密分布」である。
論文 参考訳(メタデータ) (2025-06-15T21:02:36Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [23.098551349745815]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
本稿では,非教師なし文の埋め込みを改善するために,ガウス型勾配支援コントラスト文埋め込み(GCSE)モデルを提案する。
実験結果から,本手法は意味的テキスト類似性タスクにおける最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - Boosting Disfluency Detection with Large Language Model as Disfluency Generator [8.836888435915077]
本稿では,拡散検出のための軽量なデータ拡張手法を提案する。
拡張データとして,大言語モデル(LLM)を用いて不自由な文を生成する。
文の質を向上させるために不確実性を考慮したデータフィルタリング手法を適用する。
論文 参考訳(メタデータ) (2024-03-13T04:14:33Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。