論文の概要: Scaling Optimal LR Across Token Horizons
- arxiv url: http://arxiv.org/abs/2409.19913v2
- Date: Wed, 02 Oct 2024 17:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 12:41:52.795137
- Title: Scaling Optimal LR Across Token Horizons
- Title(参考訳): トーケン・ホライズンズにおける最適LRのスケーリング
- Authors: Johan Bjorck, Alon Benhaim, Vishrav Chaudhary, Furu Wei, Xia Song,
- Abstract要約: LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
- 参考スコア(独自算出の注目度): 81.29631219839311
- License:
- Abstract: State-of-the-art LLMs are powered by scaling -- scaling model size, dataset size and cluster size. It is economically infeasible to extensively tune hyperparameter for the largest runs. Instead, approximately optimal hyperparameters must be inferred or \textit{transferred} from smaller experiments. Hyperparameter transfer across model sizes has been studied in Yang et al. However, hyperparameter transfer across dataset size -- or token horizon -- has not been studied yet. To remedy this we conduct a large scale empirical study on how optimal learning rate (LR) depends on token horizon in LLM training. We first demonstrate that the optimal LR changes significantly with token horizon -- longer training necessitates smaller LR. Secondly we demonstrate the the optimal LR follows a scaling law, and that the optimal LR for longer horizons can be accurately estimated from shorter horizons via such scaling laws. We also provide a rule-of-thumb for transferring LR across token horizons with zero overhead over current practices. Lastly we provide evidence that LLama-1 used too high LR, and estimate the performance hit from this. We thus argue that hyperparameter transfer across data size is an important and overlooked component of LLM training.
- Abstract(参考訳): State-of-the-the-art LLMs are powered by scaling -- scale model size, dataset size and cluster size. it is be capableable to widely tune hyperparameter for the largest run。その代わりに、およそ最適なハイパーパラメータを小さな実験から推論するか、あるいは \textit{transferred} にする必要がある。モデルサイズをまたいだハイパーパラメータ転送は、 Yang et alで研究されているが、データセットサイズをまたいだハイパーパラメータ転送(ハイパーパラメータ転送) -- トークン水平線(トークン水平線) -- は、まだ研究されていない。ここでは、LLMトレーニングにおける最適な学習率(LR)がトークン水平線(トークン水平線)にどのように依存するかに関する大規模な実証的研究を行う。
第二に、最適LRはスケーリング法則に従い、より長い水平線に対する最適LRはそのようなスケーリング法則によって短い水平線から正確に推定できることを示す。
また、トークン水平線を横切るLRの転送を、現在のプラクティスのオーバーヘッドをゼロにするためのルール・オブ・タブも提供します。
最後に、LLama-1が高LRを多用した証拠を提供し、これによる性能低下を推定する。
したがって、データサイズを越えたハイパーパラメータ転送は、LLMトレーニングの重要なコンポーネントであり、見過ごされている。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。
OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-28T17:22:22Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - Temporal Scaling Law for Large Language Models [24.12384260752973]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - Optimizing Learning Rate Schedules for Iterative Pruning of Deep Neural
Networks [25.84452767219292]
SILOと呼ばれるネットワークプルーニングのための学習率(LR)スケジュールを提案する。
SILOは強い理論的動機を持ち、プルーニング中にLRを動的に調整し、一般化を改善する。
SILOは、Oracleが最適化した間隔内でmax_lrの値を正確に調整することができ、その結果、複雑さが著しく低いOracleとパフォーマンスが競争できることがわかった。
論文 参考訳(メタデータ) (2022-12-09T14:39:50Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。