Fugu-MT 論文翻訳(概要): Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations

論文の概要: Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations

arxiv url: http://arxiv.org/abs/2405.18392v3
Date: Thu, 17 Oct 2024 12:01:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.945871
Title: Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations
Title（参考訳）: 厳格なトレーニング期間を超えたスケーリング法とコンピュータ・最適トレーニング
Authors: Alexander Hägele, Elie Bakouch, Atli Kosson, Loubna Ben Allal, Leandro Von Werra, Martin Jaggi,
Abstract要約: スケールは強力な機械学習モデルを得る上で重要な要素となっている。本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
参考スコア（独自算出の注目度）: 62.132347451049455
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Scale has become a main ingredient in obtaining strong machine learning models. As a result, understanding a model's scaling properties is key to effectively designing both the right training setup as well as future generations of architectures. In this work, we argue that scale and training research has been needlessly complex due to reliance on the cosine schedule, which prevents training across different lengths for the same model size. We investigate the training behavior of a direct alternative -- constant learning rate and cooldowns -- and find that it scales predictably and reliably similar to cosine. Additionally, we show that stochastic weight averaging yields improved performance along the training trajectory, without additional training costs, across different scales. Importantly, with these findings we demonstrate that scaling experiments can be performed with significantly reduced compute and GPU hours by utilizing fewer but reusable training runs. Our code is available at \url{https://github.com/epfml/schedules-and-scaling/}.
Abstract（参考訳）: スケールは強力な機械学習モデルを得る上で重要な要素となっている。結果として、モデルのスケーリング特性を理解することは、適切なトレーニング設定と将来の世代のアーキテクチャの両方を効果的に設計するための鍵となります。本研究では,コサインスケジュールに依存するため,スケールとトレーニング研究は必然的に複雑であり,同じモデルサイズで異なる長さのトレーニングを行うことが不可能である,と論じる。一定の学習率と冷却ダウンという直接的な代替手段のトレーニング行動を調査し、コサインと予測可能かつ確実に類似していることを確認する。さらに, 確率的重み付けにより, 異なるスケールでのトレーニングコストを伴わずに, トレーニング軌道に沿った性能が向上することを示した。これらの結果から,再利用可能なトレーニングの実行を減らし,計算時間とGPU時間を大幅に短縮したスケーリング実験を実施できることが示唆された。私たちのコードは \url{https://github.com/epfml/schedules-and-scaling/} で利用可能です。

関連論文リスト

Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。 DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文参考訳（メタデータ） (2025-03-12T20:04:38Z)
Warmstarting for Scaling Language Models [47.691182347349894]
モデルのサイズを拡大してパフォーマンスをスケールすることは、現在の大規模言語モデルパラダイムにとって非常にうまく機能しています。現代の規模のデータとモデルに対する高いトレーニングコストは、そのようなトレーニング設定のチューニング方法と到着方法の理解の欠如をもたらす。大型モデルの事前訓練のコストを改善する1つの方法は、より安価にチューニングできる小型モデルから大規模なトレーニングをウォームスタートさせることである。
論文参考訳（メタデータ） (2024-11-11T20:02:29Z)
Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文参考訳（メタデータ） (2024-11-07T00:10:10Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [35.40320275366383]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。 2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Always-Sparse Training by Growing Connections with Guided Stochastic Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文参考訳（メタデータ） (2024-01-12T21:32:04Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。