論文の概要: Analysis of an Idealized Stochastic Polyak Method and its Application to Black-Box Model Distillation
- arxiv url: http://arxiv.org/abs/2504.01898v1
- Date: Wed, 02 Apr 2025 16:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.444196
- Title: Analysis of an Idealized Stochastic Polyak Method and its Application to Black-Box Model Distillation
- Title(参考訳): 理想化された確率的ポリアーク法の解析とブラックボックスモデル蒸留への応用
- Authors: Robert M. Gower, Guillaume Garrigos, Nicolas Loizou, Dimitris Oikonomou, Konstantin Mishchenko, Fabian Schaipp,
- Abstract要約: SPS$*$ と呼ばれる理想化されたポリアクステップサイズの一般収束定理を提供する。
SPS$*$は、ソリューションで評価されたトレーニングバッチ毎に損失にアクセスする必要があるため、理想化されています。
これはまた、大域リプシッツ函数の最適下界を達成し、滑らかな設定で任意の時間収束する$O(1/sqrtt) を持つ最初のポリアクステップサイズであるという点でも理想的である。
- 参考スコア(独自算出の注目度): 17.943901563004275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a general convergence theorem of an idealized stochastic Polyak step size called SPS$^*$. Besides convexity, we only assume a local expected gradient bound, that includes locally smooth and locally Lipschitz losses as special cases. We refer to SPS$^*$ as idealized because it requires access to the loss for every training batch evaluated at a solution. It is also ideal, in that it achieves the optimal lower bound for globally Lipschitz function, and is the first Polyak step size to have an $O(1/\sqrt{t})$ anytime convergence in the smooth setting. We show how to combine SPS$^*$ with momentum to achieve the same favorable rates for the last iterate. We conclude with several experiments to validate our theory, and a more practical setting showing how we can distill a teacher GPT-2 model into a smaller student model without any hyperparameter tuning.
- Abstract(参考訳): SPS$^*$ と呼ばれる理想化された確率的ポリアクステップの一般収束定理を提供する。
凸性以外にも、局所的に滑らかで局所的なリプシッツ損失を含む局所的期待勾配境界を特別な場合として仮定する。
SPS$^*$は、ソリューションで評価されたトレーニングバッチ毎に損失にアクセスする必要があるため、理想化されています。
これはまた、大域リプシッツ函数の最適下界を達成し、スムーズな設定における任意の時間収束が$O(1/\sqrt{t})=$O(1/\sqrt{t})を持つ最初のポリアクステップサイズであるという点でも理想的である。
SPS$^*$を運動量と組み合わせて、前回の反復に対して同じ好ましいレートを達成する方法を示す。
この理論を検証するためのいくつかの実験と、教師のGPT-2モデルをハイパーパラメータチューニングなしでより小さな学生モデルに蒸留する方法を示すより実践的な設定で締めくくった。
関連論文リスト
- Improved Rates of Differentially Private Nonconvex-Strongly-Concave Minimax Optimization [10.913566070767596]
差分プライバシー(DP)モデルにおける最小値最適化の問題について検討する。
経験的リスク関数の Descent $l$-norm が $tO(n)(n)$ で上界となる推定器を得ることが可能である。
論文 参考訳(メタデータ) (2025-03-24T03:51:27Z) - Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Asymptotics of Language Model Alignment [27.37118975691123]
最適KL制約RL解が大きな偏差原理を満たすことを示す。
また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。
論文 参考訳(メタデータ) (2024-04-02T08:40:07Z) - Sharper Rates and Flexible Framework for Nonconvex SGD with Client and
Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。
我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。
我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文 参考訳(メタデータ) (2022-06-05T21:32:33Z) - KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。
我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文 参考訳(メタデータ) (2022-05-27T19:39:24Z) - Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
論文 参考訳(メタデータ) (2022-02-28T15:16:23Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z) - Better Theory for SGD in the Nonconvex World [2.6397379133308214]
大規模な非最適化問題は、現代の機械学習ではユビキタスである。
我々は, 広範囲の合成ミニバッチサイズがグラディエントDescent (SG) 問題に与える影響について実験を行った。
論文 参考訳(メタデータ) (2020-02-09T09:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。