論文の概要: The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws
- arxiv url: http://arxiv.org/abs/2501.12486v1
- Date: Tue, 21 Jan 2025 20:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:31.312414
- Title: The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws
- Title(参考訳): 旅行上の問題:事前学習における平均的パラメータはスパース法とデンススケーリング法を統一する
- Authors: Tian Jin, Ahmed Imtiaz Humayun, Utku Evci, Suvinay Subramanian, Amir Yazdanbakhsh, Dan Alistarh, Gintare Karolina Dziugaite,
- Abstract要約: 本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
- 参考スコア(独自算出の注目度): 51.608402959163925
- License:
- Abstract: Pruning eliminates unnecessary parameters in neural networks; it offers a promising solution to the growing computational demands of large language models (LLMs). While many focus on post-training pruning, sparse pre-training--which combines pruning and pre-training into a single phase--provides a simpler alternative. In this work, we present the first systematic exploration of optimal sparse pre-training configurations for LLMs through an examination of 80 unique pruning schedules across different sparsity levels and training durations. We find that initiating pruning at 25% of total training compute and concluding at 75% achieves near-optimal final evaluation loss. These findings provide valuable insights for efficient and effective sparse pre-training of LLMs. Furthermore, we propose a new scaling law that modifies the Chinchilla scaling law to use the average parameter count over pre-training. Through empirical and theoretical validation, we demonstrate that this modified scaling law accurately models evaluation loss for both sparsely and densely pre-trained LLMs, unifying scaling laws across pre-training paradigms. Our findings indicate that while sparse pre-training achieves the same final model quality as dense pre-training for equivalent compute budgets, it provides substantial benefits through reduced model size, enabling significant potential computational savings during inference.
- Abstract(参考訳): プルーニングはニューラルネットワークにおける不要なパラメータを排除し、大規模言語モデル(LLM)の計算要求の増大に対する有望な解決策を提供する。
トレーニング後プルーニングに多くの焦点が当てられているが、スパース事前トレーニング(pruning)とプレトレーニング(pre-training)を1つのフェーズに組み合わせることで、よりシンプルな代替手段を提供する。
本研究では, LLMの最適スパース事前学習構成について, 異なる空間レベルと訓練期間の異なる80個のプルーニングスケジュールを検証し, 初めて系統的な検討を行った。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
これらの知見は, LLMの効率的かつ効果的なスパース前訓練に有用である。
さらに,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
実験的および理論的検証により、この修正されたスケーリング法則は、疎密かつ密に訓練されたLDMの損失を正確にモデル化し、事前学習パラダイムをまたいだスケーリング法則を統一することを示した。
その結果,スパース事前学習は等価な計算予算に対する高密度事前学習と同じ最終モデル品質を達成できるが,モデルサイズを小さくすることで,推論時の計算コストを大幅に削減できる可能性が示唆された。
関連論文リスト
- P$^2$ Law: Scaling Law for Post-Training After Model Pruning [25.07013858614455]
プルーニングは、大規模言語モデル(LLM)のハードウェア要件を減らすために広く採用されている技術である。
プルーニング後のモデル性能を回復するため、結果として生じる性能劣化を軽減するために後訓練が一般的である。
学習後コストとモデル性能のバランスをとるためには,学習後データの最適量を探索する必要がある。
論文 参考訳(メタデータ) (2024-11-15T15:28:42Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Temporal Scaling Law for Large Language Models [24.12384260752973]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Prospect Pruning: Finding Trainable Weights at Initialization using
Meta-Gradients [36.078414964088196]
初期化時にニューラルネットワークをプルーニングすることで、元のネットワークの精度を保ったスパースモデルを見つけることができる。
現在の方法は、この最適化を可能にするには不十分であり、モデル性能の大幅な低下につながります。
提案するProspect Pruning(ProsPr)は,最適化の最初の数ステップを通じてメタグラディエントを用いて,どの重み付けを行うかを決定する。
本手法は,従来のプルーニング・アット・初期化手法と比較して,データの少ない1ショットで,様々な視覚分類タスクにおける最先端のプルーニング性能を実現する。
論文 参考訳(メタデータ) (2022-02-16T15:18:55Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。