論文の概要: Level Set Teleportation: An Optimization Perspective
- arxiv url: http://arxiv.org/abs/2403.03362v1
- Date: Tue, 5 Mar 2024 23:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:45:50.926042
- Title: Level Set Teleportation: An Optimization Perspective
- Title(参考訳): Level Set Teleportation: 最適化の観点から
- Authors: Aaron Mishkin, Alberto Bietti, and Robert M. Gower
- Abstract要約: 勾配法を高速化する最適化サブルーチンであるレベルセットテレポーテーションについて検討する。
ヘッセン安定度を満たす凸関数に対して、レベルセットのテレポーテーションを持つ GD が標準 GD よりも厳密に高速な結合線型/線形収束率を得ることを示す。
これは、レベルセットのテレポーテーションが改善せず、収束率を悪化させるような標準(強く)凸設定とは対照的である。
- 参考スコア(独自算出の注目度): 21.84775414778289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study level set teleportation, an optimization sub-routine which seeks to
accelerate gradient methods by maximizing the gradient norm on a level-set of
the objective function. Since the descent lemma implies that gradient descent
(GD) decreases the objective proportional to the squared norm of the gradient,
level-set teleportation maximizes this one-step progress guarantee. For convex
functions satisfying Hessian stability, we prove that GD with level-set
teleportation obtains a combined sub-linear/linear convergence rate which is
strictly faster than standard GD when the optimality gap is small. This is in
sharp contrast to the standard (strongly) convex setting, where we show
level-set teleportation neither improves nor worsens convergence rates. To
evaluate teleportation in practice, we develop a projected-gradient-type method
requiring only Hessian-vector products. We use this method to show that
gradient methods with access to a teleportation oracle uniformly out-perform
their standard versions on a variety of learning problems.
- Abstract(参考訳): 目的関数のレベルセット上の勾配ノルムを最大化することにより勾配法を高速化する最適化サブルーチンであるレベルセットテレポーテーションについて検討する。
降下補題は勾配降下(GD)が勾配の2乗ノルムに比例する目的を減少させることを意味するので、レベルセットのテレポーテーションはこの一段階の進行保証を最大化する。
ヘッセン安定度を満たす凸関数に対して、準線形/線形収束率の組合せは、最適性ギャップが小さいときに標準GDよりも厳密に高速であることを示す。
これは、レベルセットのテレポーテーションが収束率を改善も悪くもしないことを示す標準(強く)凸設定とは対照的である。
テレポーテーションを実際に評価するために,ヘシアンベクトル生成物のみを必要とする投影勾配型手法を開発した。
本手法は,テレポーテーション・オラクルにアクセス可能な勾配法が,様々な学習問題において,標準版よりも一様に優れていることを示す。
関連論文リスト
- First-ish Order Methods: Hessian-aware Scalings of Gradient Descent [11.125968799758436]
勾配降下の鍵となる制限は、自然スケーリングの欠如である。
曲率を考慮することで、適応的なヘッセン対応スケーリング手法により、局所的な単位ステップサイズが保証される。
我々は,この手法が標準リプシッツ仮定のかなり弱いバージョンの下でグローバルに収束することを示す。
論文 参考訳(メタデータ) (2025-02-06T01:22:23Z) - Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Symmetry Teleportation for Accelerated Optimization [21.989906418276906]
我々は、パラメータが損失レベルセット上で大きな距離を移動できるようにする、異なるアプローチ、対称性のテレポーテーションについて研究する。
テスト関数と多層ニューラルネットワークの損失不変群作用を導出し,テレポーテーションが収束率を向上するために必要な条件を証明した。
実験により,テスト関数,多層回帰,MNIST分類などの最適化問題に対して,テレポーテーションにより勾配降下とAdaGradの収束速度が向上することを示した。
論文 参考訳(メタデータ) (2022-05-21T16:39:21Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Walking in the Shadow: A New Perspective on Descent Directions for
Constrained Minimization [29.861939940760898]
影内移動の連続時間ダイナミクスは、投影勾配降下(PGD)のダイナミクスと等価であることを示す。
我々はこれらの知見を,線形収束を楽しみながらFWとシャドウステップを利用する新しいシャドウ-CG手法に組み合わせる。
単純なポリトープに対するブレークポイント数に対する線形境界と、一般的なポリトープに対するスケーリング不変な上限を与える。
論文 参考訳(メタデータ) (2020-06-15T14:26:56Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。