論文の概要: Drop Dropout on Single-Epoch Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2505.24788v1
- Date: Fri, 30 May 2025 16:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.084477
- Title: Drop Dropout on Single-Epoch Language Model Pretraining
- Title(参考訳): 単言語モデル事前学習におけるドロップアウト
- Authors: Houjun Liu, John Bauer, Christopher D. Manning,
- Abstract要約: 現代のLLMに共通する単一エポックな事前訓練タスクは、最小限のオーバーフィッティングをもたらす。
LMプレトレーニングにおけるドロップアウトの役割について、徹底的な実証研究は行われていない。
言語モデリング,モーコシンタクス(BLiMP),質問応答(SQuAD),自然言語推論(MNLI)のダウンストリーム性能は,事前トレーニング中にドロップアウトを適用しない場合に向上する。
- 参考スコア(独自算出の注目度): 30.63248848082757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Originally, dropout was seen as a breakthrough regularization technique that reduced overfitting and improved performance in almost all applications of deep learning by reducing overfitting. Yet, single-epoch pretraining tasks common to modern LLMs yield minimal overfitting, leading to dropout not being used for large LLMs. Nevertheless, no thorough empirical investigation has been done on the role of dropout in LM pretraining. Through experiments in single-epoch pretraining of both masked (BERT) and autoregressive (Pythia 160M and 1.4B) LMs with varying levels of dropout, we find that downstream performance in language modeling, morpho-syntax (BLiMP), question answering (SQuAD), and natural-language inference (MNLI) improves when dropout is not applied during pretraining. We additionally find that the recently-introduced "early dropout" also degrades performance over applying no dropout at all. We further investigate the models' editability, and find that models trained without dropout are more successful in gradient-based model editing (MEND) and equivalent in representation-based model editing (ReFT). Therefore, we advocate to drop dropout during single-epoch pretraining.
- Abstract(参考訳): 当初、ドロップアウトはオーバーフィッティングを減らし、オーバーフィッティングを減らし、ディープラーニングのほとんどすべてのアプリケーションのパフォーマンスを改善した画期的な正規化技術として見なされていた。
しかし、現代のLLMに共通するシングルエポック事前訓練タスクは、最小限のオーバーフィッティングをもたらし、大規模なLLMには使われない。
それでも、LMプレトレーニングにおけるドロップアウトの役割について、徹底的な実証的な調査は行われていない。
マスク付き (BERT) と自己回帰型 (Pythia 160M, 1.4B) の両方の単周的事前学習実験により, 言語モデリング, モルフォシンタクス (BLiMP) , 質問応答 (SQuAD) , 自然言語推論 (MNLI) のダウンストリーム性能は, 事前訓練中にドロップアウトが適用されない場合に向上することがわかった。
また、最近導入された"早期ドロップアウト"は、ドロップアウトを全く適用せずにパフォーマンスを低下させる。
さらに, モデルの編集性について検討し, ドロップアウトなしでトレーニングしたモデルの方が, 勾配モデル編集(MEND)や表現ベースモデル編集(ReFT)で同等であることを確認した。
したがって,単時期プレトレーニング中にドロップアウトを推奨する。
関連論文リスト
- Context-Free Synthetic Data Mitigates Forgetting [13.825822994127943]
文脈自由な世代による微調整データセットの強化は、忘れを省くことを示す。
予備学習用OLMo-1Bと推論用R1-Distill-Llama-8Bについて検討した。
論文 参考訳(メタデータ) (2025-05-20T01:47:31Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Post-Hoc Reversal: Are We Selecting Models Prematurely? [13.910702424593797]
ポストホック変換を適用した後に性能傾向が逆転するポストホック逆転現象を示す。
予備的な分析は、これらの変換が、誤ラベルされた例の影響を抑えることによって、逆転を引き起こすことを示唆している。
ポストホック選択(post-hoc selection)は、ポストホックメトリクスがモデル開発決定を通知するシンプルな手法である。
論文 参考訳(メタデータ) (2024-04-11T14:58:19Z) - Layer-wise Regularized Dropout for Neural Language Models [57.422407462430186]
レイヤワイド正規化ドロップアウト(LR-Drop)は、トランスフォーマーベースの言語モデルのために特別に設計されている。
LR-Dropは、最先端の結果を含む優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-26T07:31:35Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。