論文の概要: The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2502.19002v1
- Date: Wed, 26 Feb 2025 10:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:53.452747
- Title: The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training
- Title(参考訳): 言語モデルの事前学習促進のための変圧器のシャープネス差原理
- Authors: Jinbo Wang, Mingze Wang, Zhanpeng Zhou, Junchi Yan, Weinan E, Lei Wu,
- Abstract要約: 本稿では、各ブロックのシャープネスに合わせてLRを調整する戦略であるブロックワイズ学習率(LR)を提案する。
モデルサイズは0.12Bから1.1Bの範囲である。
最近提案されたメモリ効率のAdam-miniにBlockwise LRを組み込むことで、2倍のスピードアップと2倍のメモリ節約を実現しています。
- 参考スコア(独自算出の注目度): 51.84624027213658
- License:
- Abstract: Transformers consist of diverse building blocks, such as embedding layers, normalization layers, self-attention mechanisms, and point-wise feedforward networks. Thus, understanding the differences and interactions among these blocks is important. In this paper, we uncover a clear Sharpness Disparity across these blocks, which emerges early in training and intriguingly persists throughout the training process. Motivated by this finding, we propose Blockwise Learning Rate (LR), a strategy that tailors the LR to each block's sharpness, accelerating large language model (LLM) pre-training. By integrating Blockwise LR into AdamW, we consistently achieve lower terminal loss and nearly $2\times$ speedup compared to vanilla AdamW. We demonstrate this acceleration across GPT-2 and LLaMA, with model sizes ranging from 0.12B to 1.1B and datasets of OpenWebText and MiniPile. Finally, we incorporate Blockwise LR into Adam-mini (Zhang et al., 2024), a recently proposed memory-efficient variant of Adam, achieving a combined $2\times$ speedup and $2\times$ memory saving. These results underscore the potential of exploiting the sharpness disparity to improve LLM training.
- Abstract(参考訳): トランスフォーマーは、埋め込み層、正規化層、自己保持機構、ポイントワイドフィードフォワードネットワークなど、多様なビルディングブロックで構成されている。
したがって、これらのブロック間の差異と相互作用を理解することが重要である。
本稿では,これらのブロックをまたいだシャープネスの明確な相違を明らかにする。
そこで本研究では,各ブロックのシャープさに合わせてLRを調整し,大規模言語モデル(LLM)の事前学習を高速化するBlockwise Learning Rate(LR)を提案する。
我々は、Blockwise LRをAdamWに統合することによって、バニラAdamWと比較して、終端損失の低減と2ドル近いスピードアップを実現している。
モデルサイズは0.12Bから1.1B、OpenWebTextとMiniPileのデータセットがある。
最後に、Blockwise LRを最近提案されたAdam-mini(Zhang et al , 2024)に組み込む。
これらの結果は, LLMトレーニングを改善するために, シャープネス格差を活用できる可能性を示している。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - FoldGPT: Simple and Effective Large Language Model Compression Scheme [5.611544096046119]
ネットワーク帯域幅とメモリ制限は、モバイルデバイスに数十億レベルのモデルをデプロイする上で問題となる。
ブロック除去とブロックパラメータ共有を組み合わせたFoldGPTを提案する。
実験により、FoldGPTは従来の最先端(SOTA)手法よりも効率の良いモデル圧縮性能を示した。
論文 参考訳(メタデータ) (2024-07-01T03:17:53Z) - Save It All: Enabling Full Parameter Tuning for Federated Large Language Models via Cycle Block Gradient Descent [15.463595798992621]
大規模言語モデル(LLM)はディープラーニングパラダイムに革命をもたらし、幅広いタスクで印象的な結果をもたらしている。
既存のソリューションは、モデル全体がトレーニングのために交換されるという非現実的な仮定を定めている。
本稿では,資源消費を最小限に抑えつつ,FLにおけるLLMの効率的なトレーニングと微調整を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T03:49:44Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - BlockFUL: Enabling Unlearning in Blockchained Federated Learning [26.47424619448623]
フェデレートラーニング(FL)におけるアンラーニングは、モデルが複雑な継承関係を持って成長し進化するにつれて、大きな課題を提起する。
本稿では,FL内の未学習機能を実現するために,ライブチェーンとアーカイブチェーンからなる二重鎖構造を持つ新しいフレームワークを提案する。
2つの新しいアンラーニングパラダイム、すなわち並列およびシーケンシャルパラダイムは、勾配ベースおよび再学習ベースのアンラーニング手法によって効果的に実装できる。
実験により,これらの手法がデータ依存や運用上のオーバーヘッドを効果的に低減し,BlockFUL内の未学習モデル全体の性能を向上することを確認した。
論文 参考訳(メタデータ) (2024-02-26T04:31:53Z) - Salsa Fresca: Angular Embeddings and Pre-Training for ML Attacks on
Learning With Errors [10.800552110718714]
LWE(Learning with Errors)は、鍵交換とデジタル署名のための量子後暗号システムの基礎となる難解な数学問題である。
以前の作業では、小さな秘密を持つLWE問題に対する機械学習(ML)ベースの新たな攻撃を提案したが、これらの攻撃には、秘密をトレーニングし、回復するのに数日を要する数百万のLWEサンプルが必要である。
我々は、これらの攻撃を改善するために、3つの重要な方法、より良い前処理、角埋め込み、モデル事前訓練を提案する。
論文 参考訳(メタデータ) (2024-02-02T00:48:27Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。