論文の概要: Stable Language Model Pre-training by Reducing Embedding Variability
- arxiv url: http://arxiv.org/abs/2409.07787v1
- Date: Thu, 12 Sep 2024 06:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 17:27:46.017604
- Title: Stable Language Model Pre-training by Reducing Embedding Variability
- Title(参考訳): 埋め込み変数の低減による安定言語モデルの事前学習
- Authors: Woojin Chung, Jiwoo Hong, Na Min An, James Thorne, Se-Young Yun,
- Abstract要約: 言語モデルの事前学習安定性を評価するためのプロキシとして,Token Embedding Variability(TEV)について検討する。
また,このような不安定性を緩和するアーキテクチャとして,MLRA(Multi-head Low-Rank Attention)を提案する。
MLRAを用いたGPT-2実験の結果,特に深部モデルでは安定性が向上し,パープレキシティが低下した。
- 参考スコア(独自算出の注目度): 29.698610741413045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stable pre-training is essential for achieving better-performing language models. However, tracking pre-training stability by calculating gradient variance at every step is impractical due to the significant computational costs. We explore Token Embedding Variability (TEV) as a simple and efficient proxy for assessing pre-training stability in language models with pre-layer normalization, given that shallower layers are more prone to gradient explosion (section 2.2). Moreover, we propose Multi-head Low-Rank Attention (MLRA) as an architecture to alleviate such instability by limiting the exponential growth of output embedding variance, thereby preventing the gradient explosion (section 3.2). Empirical results on GPT-2 with MLRA demonstrate increased stability and lower perplexity, particularly in deeper models.
- Abstract(参考訳): 安定した事前トレーニングは、より良いパフォーマンスの言語モデルを達成するために不可欠である。
しかし,各ステップ毎の勾配分散を計算し,事前学習の安定性を追跡することは,計算コストの大きいため不可能である。
本研究では,より浅い層が勾配爆発に起因しやすいことを前提として,言語モデルの事前学習安定性を評価するための簡易かつ効率的なプロキシとして,Token Embedding Variability(TEV)について検討する(第2部)。
さらに,出力埋込み分散の指数的成長を制限し,勾配爆発を防止し,その不安定性を緩和するアーキテクチャとしてマルチヘッド低ランク注意(MLRA)を提案する(第3部)。
MLRAを用いたGPT-2実験の結果,特に深部モデルでは安定性が向上し,パープレキシティが低下した。
関連論文リスト
- Enhancing DP-SGD through Non-monotonous Adaptive Scaling Gradient Weight [15.139854970044075]
我々はDP-PSASC(disferially Private Per-Sample Adaptive Scaling Clipping)を導入する。
このアプローチは、従来のクリッピングを非単調適応勾配スケーリングに置き換える。
DP-PSASCは勾配のプライバシーを保ち、多様なデータセットに優れた性能を提供する。
論文 参考訳(メタデータ) (2024-11-05T12:47:30Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Continual Human Pose Estimation for Incremental Integration of Keypoints and Pose Variations [12.042768320132694]
本稿では,連続的な学習課題として,データセット間のポーズ推定を再構成する。
我々は、破滅的な忘れを緩和するための確立された正規化に基づく手法に対して、この定式化をベンチマークする。
提案手法は,既存の正規化に基づく継続学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-30T16:29:30Z) - Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit [1.7597525104451157]
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する
L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。
ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
論文 参考訳(メタデータ) (2024-06-11T03:07:41Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines [31.807628937487927]
BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。
以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。
どちらの仮説も微調整の不安定性を説明できないことを示す。
論文 参考訳(メタデータ) (2020-06-08T19:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。