論文の概要: Level Set Teleportation: An Optimization Perspective
- arxiv url: http://arxiv.org/abs/2403.03362v2
- Date: Tue, 18 Mar 2025 17:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:11:23.768719
- Title: Level Set Teleportation: An Optimization Perspective
- Title(参考訳): Level Set Teleportation: 最適化の観点から
- Authors: Aaron Mishkin, Alberto Bietti, Robert M. Gower,
- Abstract要約: 勾配降下(GD)を加速しようとする最適化ルーチンであるレベルセットテレポーテーションについて検討する。
テレポーテーションはより大きなステップでGDを直感的に高速化するが、現在の目的は凸収束の理論を欠いている。
これは、テレポーテーションが改善も収束もしない標準的な(強く)設定とは対照的である。
- 参考スコア(独自算出の注目度): 21.84775414778289
- License:
- Abstract: We study level set teleportation, an optimization routine which tries to accelerate gradient descent (GD) by maximizing the gradient norm over a level set of the objective. While teleportation intuitively speeds-up GD via bigger steps, current work lacks convergence theory for convex functions, guarantees for solving the teleportation operator, and even clear empirical evidence showing this acceleration. We resolve these open questions. For convex functions satisfying Hessian stability, we prove that GD with teleportation obtains a combined sub-linear/linear convergence rate which is strictly faster than GD when the optimality gap is small. This is in sharp contrast to the standard (strongly) convex setting, where teleportation neither improves nor worsens convergence. To evaluate teleportation in practice, we develop a projected-gradient method requiring only Hessian-vector products. We use this to show that gradient methods with access to a teleportation oracle out-perform their standard versions on a variety of problems. We also find that GD with teleportation is faster than truncated Newton methods, particularly for non-convex optimization.
- Abstract(参考訳): 目的のレベルセット上の勾配ノルムを最大化することにより、勾配降下(GD)を加速しようとする最適化ルーチンであるレベルセットテレポーテーションについて検討する。
テレポーテーションはより大きなステップでGDを直感的に高速化するが、現在の作業には凸関数の収束理論、テレポーテーション作用素の解決の保証、さらにこの加速を示す明確な実証的な証拠さえ欠けている。
私たちはこれらのオープンな疑問を解決します。
ヘッセン安定度を満たす凸関数に対して、テレポーテーションを持つGDが、最適性ギャップが小さいときにGDよりも厳密に高速な組合せ線形/線形収束率を得ることを示す。
これは、テレポーテーションが改善も悪化もしない標準の(強く)凸設定とは対照的である。
そこで本研究では,ヘッセン・ベクター製品のみを必要とするプロジェクテッド・グラディエント手法を開発した。
この手法を用いて,テレポーテーション・オラクルにアクセス可能な勾配法が,様々な問題において標準バージョンより優れた性能を発揮することを示す。
また、特に非凸最適化において、遠隔転送によるGDは、切り刻まれたニュートン法よりも高速であることがわかった。
関連論文リスト
- First-ish Order Methods: Hessian-aware Scalings of Gradient Descent [11.125968799758436]
勾配降下の鍵となる制限は、自然スケーリングの欠如である。
曲率を考慮することで、適応的なヘッセン対応スケーリング手法により、局所的な単位ステップサイズが保証される。
我々は,この手法が標準リプシッツ仮定のかなり弱いバージョンの下でグローバルに収束することを示す。
論文 参考訳(メタデータ) (2025-02-06T01:22:23Z) - Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Symmetry Teleportation for Accelerated Optimization [21.989906418276906]
我々は、パラメータが損失レベルセット上で大きな距離を移動できるようにする、異なるアプローチ、対称性のテレポーテーションについて研究する。
テスト関数と多層ニューラルネットワークの損失不変群作用を導出し,テレポーテーションが収束率を向上するために必要な条件を証明した。
実験により,テスト関数,多層回帰,MNIST分類などの最適化問題に対して,テレポーテーションにより勾配降下とAdaGradの収束速度が向上することを示した。
論文 参考訳(メタデータ) (2022-05-21T16:39:21Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Walking in the Shadow: A New Perspective on Descent Directions for
Constrained Minimization [29.861939940760898]
影内移動の連続時間ダイナミクスは、投影勾配降下(PGD)のダイナミクスと等価であることを示す。
我々はこれらの知見を,線形収束を楽しみながらFWとシャドウステップを利用する新しいシャドウ-CG手法に組み合わせる。
単純なポリトープに対するブレークポイント数に対する線形境界と、一般的なポリトープに対するスケーリング不変な上限を与える。
論文 参考訳(メタデータ) (2020-06-15T14:26:56Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。