論文の概要: Don't be so Monotone: Relaxing Stochastic Line Search in
Over-Parameterized Models
- arxiv url: http://arxiv.org/abs/2306.12747v1
- Date: Thu, 22 Jun 2023 09:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:06:53.424391
- Title: Don't be so Monotone: Relaxing Stochastic Line Search in
Over-Parameterized Models
- Title(参考訳): 単調ではない:過剰パラメータモデルにおける確率線探索の緩和
- Authors: Leonardo Galli, Holger Rauhut, Mark Schmidt
- Abstract要約: 単調線探索条件を緩和する非単調線探索法を探索する。
単調な場合と同様の高速収束率を示す。
我々は,バックトラックの量をゼロに抑えつつ,初期ステップサイズを大きく維持する新たなリセット手法を開発した。
我々の知る限り、最初の実行時比較では、行探索に基づく手法のエポックな優位性が全体的な計算時間に反映されることが示されている。
- 参考スコア(独自算出の注目度): 14.313233515044256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that line search methods can speed up Stochastic
Gradient Descent (SGD) and Adam in modern over-parameterized settings. However,
existing line searches may take steps that are smaller than necessary since
they require a monotone decrease of the (mini-)batch objective function. We
explore nonmonotone line search methods to relax this condition and possibly
accept larger step sizes. Despite the lack of a monotonic decrease, we prove
the same fast rates of convergence as in the monotone case. Our experiments
show that nonmonotone methods improve the speed of convergence and
generalization properties of SGD/Adam even beyond the previous monotone line
searches. We propose a POlyak NOnmonotone Stochastic (PoNoS) method, obtained
by combining a nonmonotone line search with a Polyak initial step size.
Furthermore, we develop a new resetting technique that in the majority of the
iterations reduces the amount of backtracks to zero while still maintaining a
large initial step size. To the best of our knowledge, a first runtime
comparison shows that the epoch-wise advantage of line-search-based methods
gets reflected in the overall computational time.
- Abstract(参考訳): 近年の研究では,SGDとAdamの線形探索手法が,現代の過パラメータ設定において高速化できることが示されている。
しかしながら、既存の行探索は、(ミニ)バッチの目的関数の単調な減少を必要とするため、必要よりも小さいステップを取ることができる。
この条件を緩和し、より大きなステップサイズを受け入れるために、モノトーンライン探索法を探索する。
単調な減少の欠如にもかかわらず、単調の場合と同様に収束速度が速いことが証明される。
実験により,SGD/Adamの収束速度と一般化特性は,従来の単調線探索を超えていることがわかった。
本稿では,非単トン線探索とPolyak初期ステップサイズを組み合わせたPolyak NOnmonotone Stochastic (PoNoS)法を提案する。
さらに,大規模な初期ステップサイズを維持しながら,ほとんどのイテレーションにおいてバックトラックの量をゼロに削減する,新たなリセット手法を開発した。
我々の知る限り、最初の実行時比較では、行探索に基づく手法のエポックな優位性が全体的な計算時間に反映されることが示されている。
関連論文リスト
- A Sample Efficient Alternating Minimization-based Algorithm For Robust Phase Retrieval [56.67706781191521]
そこで本研究では,未知の信号の復元を課題とする,ロバストな位相探索問題を提案する。
提案するオラクルは、単純な勾配ステップと外れ値を用いて、計算学的スペクトル降下を回避している。
論文 参考訳(メタデータ) (2024-09-07T06:37:23Z) - Smoothing ADMM for Sparse-Penalized Quantile Regression with Non-Convex
Penalties [8.294148737585543]
本稿では,非二次絶対および非平滑収束ペナルティの存在下での凹凸および切断された量子レグレッションについて検討する。
本稿では,スパース回帰に特化してSIADと呼ばれるペナルティ乗算器が増加する新しいループADMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T21:48:51Z) - Aiming towards the minimizers: fast convergence of SGD for
overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。
既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。
我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文 参考訳(メタデータ) (2023-06-05T05:21:01Z) - Sequential Gradient Descent and Quasi-Newton's Method for Change-Point
Analysis [0.348097307252416]
変更点を検出するための一般的なアプローチは、変更点の数と位置に関するコスト関数を最小化することである。
本稿では, 勾配降下法 (SeGD) と準ニュートン法 (SeN) とを結合し, コストを効果的に求める新しいシーケンシャル手法 (SE) を提案する。
論文 参考訳(メタデータ) (2022-10-21T20:30:26Z) - Bolstering Stochastic Gradient Descent with Model Building [0.0]
勾配降下法とその変種は、優れた収束率を達成するためのコア最適化アルゴリズムを構成する。
本稿では,前方ステップモデル構築に基づく新しいアルゴリズムを用いて,線探索の代替手法を提案する。
提案アルゴリズムは、よく知られたテスト問題において、より高速な収束とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-11-13T06:54:36Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Lower Bounds for Non-Elitist Evolutionary Algorithms via Negative
Multiplicative Drift [9.853329403413701]
乗法的ドリフトシナリオに対する単純な負のドリフト定理は既存の解析を単純化できることを示す。
我々は、非エリート変異に基づく進化アルゴリズムのランタイムにおける下位境界を証明するための最も一般的なツールの1つである集団法において、Lehre's emph negative drift in populations法(PPSN 2010)についてより詳細に論じる。
論文 参考訳(メタデータ) (2020-05-02T15:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。