論文の概要: MERIT: Maximum-normalized Element-wise Ratio for Language Model Large-batch Training
- arxiv url: http://arxiv.org/abs/2508.20577v1
- Date: Thu, 28 Aug 2025 09:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.26254
- Title: MERIT: Maximum-normalized Element-wise Ratio for Language Model Large-batch Training
- Title(参考訳): MERIT:言語モデル大規模バッチ学習のための最大正規化要素単位比
- Authors: Yang Luo, Zangwei Zheng, Ziheng Qin, Zirui Zhu, Yong Liu, Yang You,
- Abstract要約: 大規模バッチトレーニングは、ディープニューラルネットワークのトレーニングを加速する上での基礎となっている。
本研究は,大規模バッチトレーニングにおいて,最大注意ロジットと細粒度信頼率を考慮することの重要性を強調した。
トレーニングの安定性を向上し、より大きなバッチ使用の道を開くことで、大規模言語モデルの迅速な開発とイテレーションを可能にします。
- 参考スコア(独自算出の注目度): 30.4584028979212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-batch training has become a cornerstone in accelerating the training of deep neural networks, yet it poses challenges in optimization and generalization. Existing optimizers like AdamW present performance degradation during language models' large-batch training, due to the information bottleneck in attention layers caused by the sharp increase of max attention logit. While the LAMB optimizer partially addresses this issue, some attention layers still face this issue. The reason is that $l_2$-norm-based trust ratios in LAMB are less effective in directly influencing the max value of query/key weights. Furthermore, the weight-wise trust ratio in LAMB is error-prone as it overlooks relationships of weight values within rows or columns. Building on these observations, we propose a novel optimizer, MERIT, which leverages the max-norm to calculate the trust ratio to constrain the max attention logit more effectively. Moreover, we further construct element-wise trust ratios to provide more robust update scaling by focusing on local weight structures. Extensive experiments of large-batch training across various sizes of GPT-2 models demonstrate the superior performance of MERIT. Notably, during the training of GPT-2 Medium, MERIT enables a 6k batch size without any performance degradation compared to the standard batch size (480) with 48B training tokens. This work highlights the importance of considering the max attention logit and finer-granularity trust ratio in large-batch training. It successfully improves the training stability and paves the way for larger batch usage, enabling faster development and iteration of large language models. Code is available at https://github.com/NUS-HPC-AI-Lab/MERIT.
- Abstract(参考訳): 大規模バッチトレーニングは、ディープニューラルネットワークのトレーニングを加速する上で基盤となっているが、最適化と一般化の課題を提起している。
AdamW氏のような既存のオプティマイザは、言語モデルの大規模バッチトレーニングにおいて、最大アテンションロジットの急激な増加によるアテンションレイヤの情報ボトルネックのため、パフォーマンスの低下を示す。
LAMBオプティマイザは部分的にこの問題に対処するが、いくつかの注意層はまだこの問題に直面している。
LAMBの$l_2$-normベースの信頼比は、クエリ/キー重みの最大値に直接影響しないためである。
さらに、LAMBの重み付け信頼比は、行や列内の重み値の関係を見落としているため、エラーを起こしやすい。
これらの観測に基づいて,最大ノルムを利用して信頼率を計算し,より効果的に注目ロジットを制約する新しいオプティマイザMERITを提案する。
さらに,局所的な重み構造に着目して,より堅牢な更新スケーリングを実現するため,要素単位の信頼比をさらに構築する。
GPT-2モデルの多種多種多様な大バッチ学習実験により,MERITの優れた性能が示された。
特に、GPT-2 Mediumのトレーニング中、MERITは、48Bのトレーニングトークンを持つ標準的なバッチサイズ(480)と比較して、パフォーマンスの劣化のない6kバッチサイズを実現している。
本研究は,大規模バッチトレーニングにおいて,最大注意ロジットと細粒度信頼率を考慮することの重要性を強調した。
トレーニングの安定性を向上し、より大きなバッチ使用の道を開くことで、大規模言語モデルの迅速な開発とイテレーションを可能にします。
コードはhttps://github.com/NUS-HPC-AI-Lab/MERITで入手できる。
関連論文リスト
- Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文 参考訳(メタデータ) (2025-08-20T17:54:21Z) - Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [69.57125049281993]
この作業は、バッチサイズ1まで、小さなバッチサイズを見直します。
小さいバッチサイズは安定してトレーニングし、より大きなバッチサイズよりもFLOP当たりのパフォーマンスが等しく、あるいは良好であることが分かりました。
論文 参考訳(メタデータ) (2025-07-09T17:57:36Z) - When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。
我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。
我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文 参考訳(メタデータ) (2024-11-20T17:22:31Z) - A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers
Suffice Across Batch Sizes [8.4769209327079]
大規模なバッチサイズを使用してニューラルネットワークを高速にトレーニングするためのLARSとLAMBが提案されている。
そこで,nesterov momentum や adam などの標準最適化アルゴリズムは,lars と lamb の結果と大きなバッチサイズで一致あるいは超過できることを示した。
今回の結果は,これらのバッチサイズにおける新たな,より強固な将来比較を確立し,ニューラルネットワークトレーニングにおけるベースライン比較の難しさを浮き彫りにした。
論文 参考訳(メタデータ) (2021-02-12T05:57:01Z) - Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文 参考訳(メタデータ) (2020-10-08T10:19:50Z) - How do SGD hyperparameters in natural training affect adversarial
robustness? [5.406299794900294]
学習速度、バッチサイズ、運動量は、SGDアルゴリズムにおいて3つの重要なハイパーパラメータである。
本稿では,SGDハイパーパラメータが未飽和試料を用いてトレーニングしたネットワークの精度と対角的ロバスト性に及ぼす影響を実証的に観察する。
論文 参考訳(メタデータ) (2020-06-20T16:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。