論文の概要: Implicit regularisation in stochastic gradient descent: from
single-objective to two-player games
- arxiv url: http://arxiv.org/abs/2307.05789v1
- Date: Tue, 11 Jul 2023 20:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:57:14.741466
- Title: Implicit regularisation in stochastic gradient descent: from
single-objective to two-player games
- Title(参考訳): 確率勾配降下におけるインプシット正則化 : 単目的ゲームから2プレーヤゲームへ
- Authors: Mihaela Rosca, Marc Peter Deisenroth
- Abstract要約: 勾配として記述できるベクトル場を用いて連続時間フローを構築する方法を示す。
これを用いて、複数の勾配降下ステップによって誘導されるような、これまで未知の暗黙の正則化効果を見つける。
- 参考スコア(独自算出の注目度): 24.373338332180097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen many insights on deep learning optimisation being
brought forward by finding implicit regularisation effects of commonly used
gradient-based optimisers. Understanding implicit regularisation can not only
shed light on optimisation dynamics, but it can also be used to improve
performance and stability across problem domains, from supervised learning to
two-player games such as Generative Adversarial Networks. An avenue for finding
such implicit regularisation effects has been quantifying the discretisation
errors of discrete optimisers via continuous-time flows constructed by backward
error analysis (BEA). The current usage of BEA is not without limitations,
since not all the vector fields of continuous-time flows obtained using BEA can
be written as a gradient, hindering the construction of modified losses
revealing implicit regularisers. In this work, we provide a novel approach to
use BEA, and show how our approach can be used to construct continuous-time
flows with vector fields that can be written as gradients. We then use this to
find previously unknown implicit regularisation effects, such as those induced
by multiple stochastic gradient descent steps while accounting for the exact
data batches used in the updates, and in generally differentiable two-player
games.
- Abstract(参考訳): 近年、一般的な勾配型光子による暗黙的正規化効果の発見により、ディープラーニングの最適化に関する多くの知見がもたらされている。
暗黙の正規化を理解することは、最適化のダイナミクスに光を当てるだけでなく、教師付き学習から生成的敵ネットワークのような2プレイヤーゲームまで、問題領域全体のパフォーマンスと安定性を改善するためにも使用できる。
このような暗黙的な正則化効果を見出すための手段は、後方誤差解析(BEA)によって構築された連続時間流によって離散オプティマイザの離散化誤差を定量化することである。
BEA を使用した連続時間フローのベクトル場はすべて勾配として記述できる訳ではなく、暗黙の正則性を示す修正された損失の構成を妨げるため、現在の BEA の使用には制限がない。
本稿では,beaを利用するための新しいアプローチを提案し,勾配として記述可能なベクトル場を用いた連続時間フローの構築に,我々のアプローチがどのように役立つかを示す。
これを使って,複数の確率的勾配降下ステップによって引き起こされるような,未知の暗黙の正規化効果を,更新で使用される正確なデータバッチや,一般的に区別可能な2人プレイゲームで考慮しながら発見する。
関連論文リスト
- Nesterov acceleration in benignly non-convex landscapes [0.0]
本研究では, モーメントに基づく最適化アルゴリズムが, 深層学習問題の非凸設定に応用可能であることを示す。
本稿では、加速理論と実践設定のこのギャップを部分的に埋める。
論文 参考訳(メタデータ) (2024-10-10T22:02:10Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Robust learning with anytime-guaranteed feedback [6.903929927172917]
勾配に基づく学習アルゴリズムは、ほとんど性能保証のないクエリフィードバックによって駆動される。
ここでは、高確率エラーバウンダリを許容する修正された"常にオンラインからバッチ"メカニズムについて検討する。
実際に、実世界のデータアプリケーションで注目すべき利益をあげている。
論文 参考訳(メタデータ) (2021-05-24T07:31:52Z) - Variance Regularization for Accelerating Stochastic Optimization [14.545770519120898]
ミニバッチ勾配に隠れた統計情報を利用してランダムな誤りの蓄積を低減する普遍原理を提案する。
これは、ミニバッチのばらつきに応じて学習率を正規化することで達成される。
論文 参考訳(メタデータ) (2020-08-13T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。