論文の概要: BiSLS/SPS: Auto-tune Step Sizes for Stable Bi-level Optimization
- arxiv url: http://arxiv.org/abs/2305.18666v1
- Date: Tue, 30 May 2023 00:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 18:57:19.535157
- Title: BiSLS/SPS: Auto-tune Step Sizes for Stable Bi-level Optimization
- Title(参考訳): BiSLS/SPS:安定バイレベル最適化のための自動チューニングステップサイズ
- Authors: Chen Fan, Gaspard Chon\'e-Ducasse, Mark Schmidt, Christos
Thrampoulidis
- Abstract要約: 既存のアルゴリズムは、ハイパーグラディエントを計算する際に近似誤差の影響を受け得る2つの結合学習率を含んでいる。
線形探索(SLS)とポリアクステップサイズ(SPS)という適応的なステップサイズ法を用いて,上層と下層の両方の学習率の計算を行う。
SGDとAdamの両バージョンで利用できる新しいアルゴリズムは、最小限のチューニングで大きな学習率を見つけ、対応するバニラBOアルゴリズムよりも高速に収束させることができる。
- 参考スコア(独自算出の注目度): 36.99862545541664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The popularity of bi-level optimization (BO) in deep learning has spurred a
growing interest in studying gradient-based BO algorithms. However, existing
algorithms involve two coupled learning rates that can be affected by
approximation errors when computing hypergradients, making careful fine-tuning
necessary to ensure fast convergence. To alleviate this issue, we investigate
the use of recently proposed adaptive step-size methods, namely stochastic line
search (SLS) and stochastic Polyak step size (SPS), for computing both the
upper and lower-level learning rates. First, we revisit the use of SLS and SPS
in single-level optimization without the additional interpolation condition
that is typically assumed in prior works. For such settings, we investigate new
variants of SLS and SPS that improve upon existing suggestions in the
literature and are simpler to implement. Importantly, these two variants can be
seen as special instances of general family of methods with an envelope-type
step-size. This unified envelope strategy allows for the extension of the
algorithms and their convergence guarantees to BO settings. Finally, our
extensive experiments demonstrate that the new algorithms, which are available
in both SGD and Adam versions, can find large learning rates with minimal
tuning and converge faster than corresponding vanilla SGD or Adam BO algorithms
that require fine-tuning.
- Abstract(参考訳): ディープラーニングにおける双方向最適化(BO)の人気は、勾配に基づくBOアルゴリズムの研究への関心が高まっている。
しかし、既存のアルゴリズムは、ハイパーグラディエントを計算する際に近似誤差の影響を受け得る2つの結合学習率を含み、高速収束を保証するために注意深い微調整を行う。
この問題を軽減するために,最近提案された適応的なステップサイズ手法,すなわち確率線探索 (SLS) と確率ポリークステップサイズ (SPS) を用いて,上層と下層の両方の学習率の計算を行った。
まず,従来の作業で想定される補間条件を伴わずに,一段最適化におけるSLSとSPSの使用を再検討する。
このような状況下では,文献上の既存の提案を改良し,実装が容易なslsおよびspsの新しい変種について検討する。
重要なことに、これら2つの変種は包絡型ステップサイズを持つ一般的なメソッドファミリーの特別な例と見なすことができる。
この統一エンベロープ戦略はアルゴリズムの拡張とbo設定への収束保証を可能にする。
最後に、SGDとAdamの両バージョンで利用可能な新しいアルゴリズムは、最小のチューニングで大きな学習率を示し、細調整を必要とする対応するバニラSGDやAdam BOアルゴリズムよりも高速に収束することを示した。
関連論文リスト
- Provably Faster Algorithms for Bilevel Optimization via Without-Replacement Sampling [96.47086913559289]
勾配に基づくアルゴリズムはバイレベル最適化に広く用いられている。
本研究では,より高速な収束率を実現する非置換サンプリングに基づくアルゴリズムを提案する。
合成および実世界の両方のアプリケーションに対してアルゴリズムを検証する。
論文 参考訳(メタデータ) (2024-11-07T17:05:31Z) - Tuning-Free Bilevel Optimization: New Algorithms and Convergence Analysis [21.932550214810533]
そこで我々はD-TFBOとS-TFBOという2つの新しいチューニング自由アルゴリズムを提案する。
D-TFBOは「累積勾配ノルムの逆」戦略によって適応的に調整された段数を持つ二重ループ構造を用いる。
S-TFBOはより単純な完全な単一ループ構造で、3つの変数を同時に更新する。
論文 参考訳(メタデータ) (2024-10-07T15:50:30Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Adaptive First- and Second-Order Algorithms for Large-Scale Machine
Learning [3.0204520109309843]
機械学習における連続最適化問題に対処する一階法と二階法を考察する。
一階述語の場合、半決定論的から二次正規化への遷移の枠組みを提案する。
本稿では,適応的なサンプリングと適応的なステップサイズを持つ新しい1次アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:10:00Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。