論文の概要: DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule
- arxiv url: http://arxiv.org/abs/2302.12022v1
- Date: Wed, 8 Feb 2023 18:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:14:08.940779
- Title: DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule
- Title(参考訳): DoGはSGDのベストフレンド:パラメータフリーの動的ステップサイズスケジュール
- Authors: Maor Ivgi, Oliver Hinder and Yair Carmon
- Abstract要約: 我々はDistance over Gradients (DoG) と呼ばれるチューニング不要な動的SGDステップサイズ公式を提案する。
本研究は, 凸最適化のためのパラメータフリー収束保証が, わずかに異なることを示し, パラメータフリー収束保証が有効であることを示す。
また、一般にチューニングされたSGDよりも優れたDoGの層間変異も提案する。
- 参考スコア(独自算出の注目度): 11.636875031280661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a tuning-free dynamic SGD step size formula, which we call
Distance over Gradients (DoG). The DoG step sizes depend on simple empirical
quantities (distance from the initial point and norms of gradients) and have no
``learning rate'' parameter. Theoretically, we show that a slight variation of
the DoG formula enjoys strong parameter-free convergence guarantees for
stochastic convex optimization assuming only \emph{locally bounded} stochastic
gradients. Empirically, we consider a broad range of vision and language
transfer learning tasks, and show that DoG's performance is close to that of
SGD with tuned learning rate. We also propose a per-layer variant of DoG that
generally outperforms tuned SGD, approaching the performance of tuned Adam.
- Abstract(参考訳): 本研究では,Distance over Gradients (DoG) と呼ばれるチューニング不要な動的SGDステップサイズ公式を提案する。
DoGのステップサイズは単純な経験量(初期点と勾配のノルムに依存している)に依存し、‘学習率’パラメータを持たない。
理論的には、犬の公式のわずかな変化は、確率凸最適化のための強いパラメータフリーな収束保証を享受していることを示す。
実証的に,幅広い視覚・言語伝達学習タスクを考察し,DoGの性能が学習速度を調整したSGDに近いことを示す。
また、一般にSGDよりも優れており、チューニングされたAdamの性能に近づいたDoGの層間変異も提案する。
関連論文リスト
- Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - DoWG Unleashed: An Efficient Universal Parameter-Free Gradient Descent
Method [31.891933360081342]
我々は、DWGが最適に効率的であることを証明し、凸最適化における調整勾配勾配の収束率をパラメータを調整せずに対数係数に一致させ、普遍的であることを示した。
DoWGはランニング平均の新しい距離ベース重み付きバージョンを維持しており、これは所望の特性を達成するために不可欠である。
本理論を補完するため,DoWGは安定性の限界に到達し,実践的な機械学習タスクにおけるその有効性を検証することを実証的に示す。
論文 参考訳(メタデータ) (2023-05-25T17:40:43Z) - Two Sides of One Coin: the Limits of Untuned SGD and the Power of
Adaptive Methods [22.052459124774504]
本研究では,未調整のSGDに対する適応的手法により,スムーズさと情報優位性で問題を緩和することを示す。
この結果から, 指数関数依存性が欠如している場合, 未修正SGDに対する適応手法の理論的正当性について検討した。
論文 参考訳(メタデータ) (2023-05-21T14:40:43Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - IGLU: Efficient GCN Training via Lazy Updates [17.24386142849498]
グラフ畳み込みネットワーク(GCN)は、大きな基盤となるグラフと複数のレイヤを含む多くの設定で使用されている。
標準SGDベースのトレーニングは、グラフの大部分のノード埋め込みを更新する各降下ステップが終わるため、ここでは不十分である。
各種GCN層における全ノードに対するフォワードパス埋め込みをキャッシュする新しいIGLU法を提案する。
論文 参考訳(メタデータ) (2021-09-28T19:11:00Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - AdaDGS: An adaptive black-box optimization method with a nonlocal
directional Gaussian smoothing gradient [3.1546318469750196]
方向性ガウススムースティング(DGS)アプローチは(Zhang et al., 2020)で最近提案され、高次元ブラックボックス最適化のためにDGS勾配と呼ばれる真の非局所勾配を定義するために使用された。
DGSグラデーションを用いた簡易かつ創発的かつ効率的な最適化手法を提案し,超パラメータ微調整の必要性を排除した。
論文 参考訳(メタデータ) (2020-11-03T21:20:25Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。