論文の概要: Gradient Equilibrium in Online Learning: Theory and Applications
- arxiv url: http://arxiv.org/abs/2501.08330v2
- Date: Sun, 19 Jan 2025 01:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:27.047820
- Title: Gradient Equilibrium in Online Learning: Theory and Applications
- Title(参考訳): オンライン学習におけるグラディエント平衡:理論と応用
- Authors: Anastasios N. Angelopoulos, Michael I. Jordan, Ryan J. Tibshirani,
- Abstract要約: 勾配平衡は標準オンライン学習法によって達成される。
勾配平衡は、オンライン予測問題において解釈可能かつ有意義な性質に変換される。
勾配平衡フレームワークは,ブラックボックス予測の偏りを緩和する手法の開発に利用できることを示す。
- 参考スコア(独自算出の注目度): 56.02856551198923
- License:
- Abstract: We present a new perspective on online learning that we refer to as gradient equilibrium: a sequence of iterates achieves gradient equilibrium if the average of gradients of losses along the sequence converges to zero. In general, this condition is not implied by nor implies sublinear regret. It turns out that gradient equilibrium is achievable by standard online learning methods such as gradient descent and mirror descent with constant step sizes (rather than decaying step sizes, as is usually required for no regret). Further, as we show through examples, gradient equilibrium translates into an interpretable and meaningful property in online prediction problems spanning regression, classification, quantile estimation, and others. Notably, we show that the gradient equilibrium framework can be used to develop a debiasing scheme for black-box predictions under arbitrary distribution shift, based on simple post hoc online descent updates. We also show that post hoc gradient updates can be used to calibrate predicted quantiles under distribution shift, and that the framework leads to unbiased Elo scores for pairwise preference prediction.
- Abstract(参考訳): 繰り返しの列が、その列に沿った損失の勾配の平均が0に収束すると、勾配均衡を達成する。
一般に、この条件はサブリニア後悔を含まない。
勾配平衡は、一定のステップサイズを持つ勾配降下やミラー降下のような標準的なオンライン学習手法によって達成可能であることが判明した(通常、後悔しないために必要となるような、崩壊するステップサイズではなく)。
さらに、例を通して示すように、勾配平衡は回帰、分類、量子的推定などを含むオンライン予測問題において、解釈可能かつ有意義な性質に変換される。
特に、簡単なポストホックオンライン降下更新に基づいて、任意の分布シフトの下でのブラックボックス予測のデバイアス化手法の開発に勾配平衡フレームワークが利用できることを示す。
また,ポストホック勾配の更新は分布シフト下での予測量子化のキャリブレーションに利用でき,このフレームワークがペアの選好予測に不偏のエロスコアにつながることも示している。
関連論文リスト
- Parallel Momentum Methods Under Biased Gradient Estimations [11.074080383657453]
並列勾配法は、複数のノードに分散したデータを含む大規模機械学習問題の解決において注目されている。
しかし、最も理論的な研究の焦点となっている非バイアス境界の取得は、多くの機械学習応用において困難である。
本稿では,メタラーニングにおける推定値の偏りや,勾配の圧縮や切り抜きといった特殊勾配の影響について検討する。
論文 参考訳(メタデータ) (2024-02-29T18:03:03Z) - Estimator Meets Equilibrium Perspective: A Rectified Straight Through
Estimator for Binary Neural Networks Training [35.090598013305275]
ニューラルネットワークのバイナリ化は、ニューラルネットワーク圧縮において支配的なパラダイムである。
本稿では,推定誤差と勾配安定性のバランスをとるために,ReSTE(Rectified Straight Through Estimator)を提案する。
ReSTEは優れたパフォーマンスを持ち、補助モジュールや損失を伴わずに最先端のメソッドを超える。
論文 参考訳(メタデータ) (2023-08-13T05:38:47Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - On the influence of roundoff errors on the convergence of the gradient
descent method with low-precision floating-point computation [0.0]
ゼロバイアス特性を小さな勾配を維持する確率で交換する新しいラウンドリング方式を提案する。
提案手法は,各イテレーションにおいて降下方向にある一定の丸みバイアスを生じさせる。
論文 参考訳(メタデータ) (2022-02-24T18:18:20Z) - Coupled Gradient Estimators for Discrete Latent Variables [41.428359609999326]
非バイアス勾配推定器の高分散のため、離散潜伏変数を持つ訓練モデルは困難である。
重要サンプリングと統計的結合に基づく新しい推定器の導出を提案する。
提案した分類的勾配推定器は,最先端の性能を示すことを示す。
論文 参考訳(メタデータ) (2021-06-15T11:28:44Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。