Fugu-MT 論文翻訳(概要): Time Matters: Scaling Laws for Any Budget

論文の概要: Time Matters: Scaling Laws for Any Budget

arxiv url: http://arxiv.org/abs/2406.18922v1
Date: Thu, 27 Jun 2024 06:26:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 15:06:48.862919
Title: Time Matters: Scaling Laws for Any Budget
Title（参考訳）: 時間の問題: あらゆる予算に対する法則のスケーリング
Authors: Itay Inbar, Luke Sernau,
Abstract要約: FLOPに基づく一般的な時間推定は低い推定値であり,メモリコピーに基づくより正確なプロキシの構築が可能であることを示す。簡単な会計を行うことで、トランスモデルのトレーニング速度をハイパーパラメータから推定できることが示される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A primary cost driver for training large models is wall-clock training time. We show that popular time estimates based on FLOPs are poor estimates, and construct a more accurate proxy based on memory copies. We show that with some simple accounting, we can estimate the training speed of a transformer model from its hyperparameters. Combined with a scaling law curve like Chinchilla, this lets us estimate the final loss of the model. We fit our estimate to real data with a linear regression, and apply the result to rewrite Chinchilla in terms of a model's estimated training time as opposed to the amount of training data. This gives an expression for the loss in terms of the model's hyperparameters alone. We show that this expression is accurate across a wide range of model hyperparameter values, enabling us to analytically make architectural decisions and train models more efficiently.
Abstract（参考訳）: 大型モデルの訓練に要する主な費用は、ウォールクロックの訓練時間である。 FLOPに基づく一般的な時間推定は低い推定値であり,メモリコピーに基づくより正確なプロキシの構築が可能であることを示す。簡単な会計を行うことで、トランスモデルのトレーニング速度をハイパーパラメータから推定できることが示される。 Chinchillaのようなスケーリング法則曲線と組み合わせることで、モデルの最終的な損失を見積もることができます。実データに対する推定値を線形回帰に当てはめ、トレーニングデータの量とは対照的に、モデルの推定トレーニング時間の観点から、チチラを書き換える結果を適用する。これにより、モデルのハイパーパラメータだけでの損失の表現が得られます。この表現は、幅広いモデルハイパーパラメーター値に対して正確であることを示し、アーキテクチャ上の決定を解析的に行い、モデルをより効率的に訓練することを可能にする。

関連論文リスト

Does Scaling Law Apply in Time Series Forecasting? [2.127584662240465]
我々は,kレベルパラメータのみを用いて競合性能を実現する超軽量予測モデルであるAlinearを提案する。 7つのベンチマークデータセットの実験では、Alinearが大規模モデルよりも一貫して優れていることが示されている。この研究は、より大きなモデルが本質的に優れているという一般的な信念に挑戦し、より効率的な時系列モデリングへのパラダイムシフトを示唆している。
論文参考訳（メタデータ） (2025-05-15T11:04:39Z)
Scaling Inference-Efficient Language Models [3.271571137474847]
モデルアーキテクチャは推論レイテンシに影響を与えており、同じサイズのモデルでは最大3.5倍のレイテンシの差が生じる可能性がある。我々は、モデルパラメータ数、トレーニングトークンの数、モデルアーキテクチャを共最適化するために、Chinchillaスケーリングの法則を変更します。下流タスクの精度を維持しつつ、推論遅延を1.8倍改善するMorph-1Bモデルをリリースする。
論文参考訳（メタデータ） (2025-01-30T03:16:44Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts [25.503695417712997]
Time-MoEは、より大きく、より有能な基礎モデルを予測するために設計された、スケーラブルで統一されたアーキテクチャである。 Time-MoEは、予測毎にネットワークのサブセットだけを活性化することで、計算効率を向上させる。時系列基礎モデルを24億のパラメータに拡張し,予測精度を大幅に向上させた。
論文参考訳（メタデータ） (2024-09-24T12:42:18Z)
A Cost-Aware Approach to Adversarial Robustness in Neural Networks [1.622320874892682]
本稿では,ハードウェア選択,バッチサイズ,エポック数,テストセット精度の影響を測定するために,高速化された故障時間モデルを提案する。我々は、複数のGPUタイプを評価し、モデルの堅牢性を最大化し、モデル実行時間を同時に最小化するためにTree Parzen Estimatorを使用します。
論文参考訳（メタデータ） (2024-09-11T20:43:59Z)
Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-09-07T09:37:19Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Towards Flexible Time-to-event Modeling: Optimizing Neural Networks via Rank Regression [17.684526928033065]
我々はDART(Time-to-event Prediction)のためのDeep AFT Rank-regressionモデルを導入する。このモデルは、表現学習において効率的で信頼性の高いゲハンのランク統計に基づく客観的関数を用いる。提案手法は, 生存時間分布に分布仮定を課さない半パラメトリックなAFTモデリング手法である。
論文参考訳（メタデータ） (2023-07-16T13:58:28Z)
Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文参考訳（メタデータ） (2022-10-28T20:41:48Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。