Fugu-MT 論文翻訳(概要): Time Transfer: On Optimal Learning Rate and Batch Size In The Infinite Data Limit

論文の概要: Time Transfer: On Optimal Learning Rate and Batch Size In The Infinite Data Limit

arxiv url: http://arxiv.org/abs/2410.05838v1
Date: Tue, 8 Oct 2024 09:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 12:30:00.635846
Title: Time Transfer: On Optimal Learning Rate and Batch Size In The Infinite Data Limit
Title（参考訳）: 時間移動:無限データ制限における最適学習率とバッチサイズについて
Authors: Oleg Filatov, Jan Ebert, Jiangtao Wang, Stefan Kesselheim,
Abstract要約: 観測された最適$eta$と$B$Dynamicsは、$mu$Pモデルスケーリングで保存されていることを示す。我々の結果は、損失値のみに依存する$B_mathrmcrit$という従来の考え方に挑戦する。
参考スコア（独自算出の注目度）: 1.8337746049048673
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the main challenges in optimal scaling of large language models (LLMs) is the prohibitive cost of hyperparameter tuning, particularly learning rate $\eta$ and batch size $B$. While techniques like $\mu$P (Yang et al., 2022) provide scaling rules for optimal $\eta$ transfer in the infinite model size limit, the optimal scaling behavior in the infinite data size limit ($T \to \infty$) remains unknown. We fill in this gap by observing for the first time an interplay of three optimal $\eta$ scaling regimes: $\eta \propto \sqrt{T}$, $\eta \propto 1$, and $\eta \propto 1/\sqrt{T}$ with transitions controlled by $B$ and its relation to the time-evolving critical batch size $B_\mathrm{crit} \propto T$. Furthermore, we show that the optimal batch size is positively correlated with $B_\mathrm{crit}$: keeping it fixed becomes suboptimal over time even if learning rate is scaled optimally. Surprisingly, our results demonstrate that the observed optimal $\eta$ and $B$ dynamics are preserved with $\mu$P model scaling, challenging the conventional view of $B_\mathrm{crit}$ dependence solely on loss value. Complementing optimality, we examine the sensitivity of loss to changes in learning rate, where we find the sensitivity to decrease with $T \to \infty$ and to remain constant with $\mu$P model scaling. We hope our results make the first step towards a unified picture of the joint optimal data and model scaling.
Abstract（参考訳）: 大規模言語モデル(LLM)の最適スケーリングにおける大きな課題の1つは、ハイパーパラメータチューニングの禁止コスト、特に学習率$\eta$とバッチサイズ$B$である。 $\mu$P (Yang et al , 2022) のようなテクニックは、無限モデルサイズ制限における最適な$\eta$転送のスケーリングルールを提供するが、無限データサイズ制限 (T \to \infty$) における最適なスケーリングの挙動はいまだ不明である。例えば、$\eta \propto \sqrt{T}$, $\eta \propto 1$, and $\eta \propto 1/\sqrt{T}$。さらに, 最適バッチサイズが$B_\mathrm{crit}$と正に相関していることを示す。驚くべきことに、観測された最適$\eta$と$B$Dynamicsは、$\mu$Pモデルスケーリングで保存され、損失値のみに依存した$B_\mathrm{crit}$の従来の見方に挑戦する。最適性を補完し、学習率の変化に対する損失の感度を調べ、そこでは、$T \to \infty$で減少し、$\mu$Pモデルスケーリングで一定を維持する感度を求める。結果が、共同最適化データとモデルスケーリングの統一化に向けた第一歩になることを願っています。

関連論文リスト

Active Subsampling for Measurement-Constrained M-Estimation of Individualized Thresholds with High-Dimensional Data [3.1138411427556445]
測定制約のある問題では、大きなデータセットが利用可能であるにもかかわらず、大きなデータセットのごく一部でラベルを観測するのに手頃な価格にしかならない。このことは、どのデータポイントが予算制約のあるラベルに最も有益であるかという重要な疑問を引き起こします。本稿では,測定制約付きM推定フレームワークにおける最適個別化しきい値の推定に焦点をあてる。
論文参考訳（メタデータ） (2024-11-21T00:21:17Z)
The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-10-06T22:30:14Z)
Improved Bound for Robust Causal Bandits with Linear Models [16.60875994745622]
本稿では,時間的モデル変動に直面した因果包帯のロバスト性について検討する。提案アルゴリズムは,$C$が$o(sqrtT)$の場合に,ほぼ最適な$tildemathcalO(sqrtT)$後悔を達成する。
論文参考訳（メタデータ） (2024-05-13T14:41:28Z)
Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
Model approximation in MDPs with unbounded per-step cost [3.456139143869137]
我々は、無限水平割引コストのMarkov決定プロセス$mathcalM$に対して、近似モデル$hatmathcalM$にしかアクセスできない場合に制御ポリシーを設計する問題を考える。最適なポリシー$hatpistar$は、オリジナルのモデル$mathcalM$で使用される場合、どの程度機能しますか? コスト関数間の重み付き距離と、原モデルと近似モデルの遷移核間の重み付き距離に明示的に依存する上限を提供する。
論文参考訳（メタデータ） (2024-02-13T21:36:30Z)
(Accelerated) Noise-adaptive Stochastic Heavy-Ball Momentum [7.095058159492494]
ヘビーボール運動量(SHB)は機械学習モデルのトレーニングに一般的に用いられ、勾配よりも経験的な結果を提供することが多い。 SHBは, 条件値 $kappa2$ の閾値 $b*$ よりも小さい場合に, 高速化されたミニバッチサイズが得られることを示す。
論文参考訳（メタデータ） (2024-01-12T18:17:28Z)
Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文参考訳（メタデータ） (2023-05-13T01:10:49Z)
Lower Generalization Bounds for GD and SGD in Smooth Stochastic Convex Optimization [9.019243171993553]
トレーニングステップ$T$とStep-size$eta$は、滑らかな凸最適化(SCO)問題の認定に影響を与える可能性がある。まず、グラディエントDescent(GD)とグラディエントDescent(SGD)の厳密な過剰リスク低境界を提供する。近年の作業は、より良い速度で達成できるが、トレーニング時間が長い場合には改善が減少する。
論文参考訳（メタデータ） (2023-03-19T20:24:33Z)
Restricted Strong Convexity of Deep Learning Models with Smooth Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。 Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文参考訳（メタデータ） (2022-09-29T21:24:26Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文参考訳（メタデータ） (2021-10-09T21:13:48Z)
Online Convex Optimization with Continuous Switching Constraint [78.25064451417082]
連続的なスイッチング制約を伴うオンライン凸最適化の問題を紹介する。強い凸関数の場合、後悔境界は$O(log T)$ for $S=Omega(log T)$、$O(minT/exp(S)+S,T)$ for $S=O(log T)$に改善できることを示す。
論文参考訳（メタデータ） (2021-03-21T11:43:35Z)
Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$ Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文参考訳（メタデータ） (2021-03-02T06:53:44Z)
Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。 learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文参考訳（メタデータ） (2021-02-15T08:16:51Z)
Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。 AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文参考訳（メタデータ） (2021-02-09T07:46:34Z)
Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。 $ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文参考訳（メタデータ） (2020-08-06T07:33:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。