論文の概要: Learning Rate Schedules in the Presence of Distribution Shift
- arxiv url: http://arxiv.org/abs/2303.15634v1
- Date: Mon, 27 Mar 2023 23:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:57:27.981383
- Title: Learning Rate Schedules in the Presence of Distribution Shift
- Title(参考訳): 分布シフトを考慮した学習率スケジュール
- Authors: Matthew Fahrbach, Adel Javanmard, Vahab Mirrokni, Pratik Worah
- Abstract要約: 変化するデータ分布の存在下でネットワークを後悔する学習スケジュールを設計する。
これらの学習スケジュールに対する高次元回帰回帰モデルの実験とその後悔について述べる。
- 参考スコア(独自算出の注目度): 12.92676993538944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design learning rate schedules that minimize regret for SGD-based online
learning in the presence of a changing data distribution. We fully characterize
the optimal learning rate schedule for online linear regression via a novel
analysis with stochastic differential equations. For general convex loss
functions, we propose new learning rate schedules that are robust to
distribution shift, and we give upper and lower bounds for the regret that only
differ by constants. For non-convex loss functions, we define a notion of
regret based on the gradient norm of the estimated models and propose a
learning schedule that minimizes an upper bound on the total expected regret.
Intuitively, one expects changing loss landscapes to require more exploration,
and we confirm that optimal learning rate schedules typically increase in the
presence of distribution shift. Finally, we provide experiments for
high-dimensional regression models and neural networks to illustrate these
learning rate schedules and their cumulative regret.
- Abstract(参考訳): 我々は,SGDに基づくオンライン学習において,変化するデータ分布の存在下での後悔を最小限に抑える学習率スケジュールを設計する。
確率微分方程式を用いた新しい解析により,オンライン線形回帰に対する最適学習率スケジュールを特徴付ける。
一般凸損失関数に対して,分布シフトに頑健な新しい学習率スケジュールを提案し,定数によってのみ異なる後悔に対して上限と下限を与える。
非凸損失関数に対しては、推定モデルの勾配ノルムに基づいて後悔の概念を定義し、予想される全後悔の上限を最小化する学習スケジュールを提案する。
直感的には、より多くの探索を必要とするような損失景観の変化を期待し、最適学習率スケジュールが典型的には分布シフトの有無で増加することを確認します。
最後に,高次元回帰モデルとニューラルネットワークに関する実験を行い,学習率のスケジュールとその累積的後悔を説明する。
関連論文リスト
- On Regularization via Early Stopping for Least Squares Regression [4.159762735751163]
我々は、任意のスペクトルを持つ汎用データや、幅広い学習率スケジュールにおいて、早期停止が有益であることを証明した。
最適停止時間を推定し,推定値の精度を実証的に示す。
論文 参考訳(メタデータ) (2024-06-06T18:10:51Z) - Investigating the Histogram Loss in Regression [16.83443393563771]
ヒストグラムロス(Histogram Loss)は、対象変数の条件分布を学習するための回帰手法である。
この設定における学習分布の利点は、余分な情報をモデル化するのではなく、最適化の改善によるものであることを示す。
論文 参考訳(メタデータ) (2024-02-20T23:29:41Z) - Future Gradient Descent for Adapting the Temporal Shifting Data
Distribution in Online Recommendation Systems [30.88268793277078]
トレーニング用データ分布の勾配情報を予測するメタ・フューチャー・グラデーション・ジェネレータを学習する。
Batch Updateと比較すると,提案アルゴリズムは時間領域の一般化誤差が小さいことを示唆している。
論文 参考訳(メタデータ) (2022-09-02T15:55:31Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。
この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文 参考訳(メタデータ) (2021-04-11T15:19:30Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。