論文の概要: Level Set Teleportation: An Optimization Perspective
- arxiv url: http://arxiv.org/abs/2403.03362v1
- Date: Tue, 5 Mar 2024 23:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:45:50.926042
- Title: Level Set Teleportation: An Optimization Perspective
- Title(参考訳): Level Set Teleportation: 最適化の観点から
- Authors: Aaron Mishkin, Alberto Bietti, and Robert M. Gower
- Abstract要約: 勾配法を高速化する最適化サブルーチンであるレベルセットテレポーテーションについて検討する。
ヘッセン安定度を満たす凸関数に対して、レベルセットのテレポーテーションを持つ GD が標準 GD よりも厳密に高速な結合線型/線形収束率を得ることを示す。
これは、レベルセットのテレポーテーションが改善せず、収束率を悪化させるような標準(強く)凸設定とは対照的である。
- 参考スコア(独自算出の注目度): 21.84775414778289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study level set teleportation, an optimization sub-routine which seeks to
accelerate gradient methods by maximizing the gradient norm on a level-set of
the objective function. Since the descent lemma implies that gradient descent
(GD) decreases the objective proportional to the squared norm of the gradient,
level-set teleportation maximizes this one-step progress guarantee. For convex
functions satisfying Hessian stability, we prove that GD with level-set
teleportation obtains a combined sub-linear/linear convergence rate which is
strictly faster than standard GD when the optimality gap is small. This is in
sharp contrast to the standard (strongly) convex setting, where we show
level-set teleportation neither improves nor worsens convergence rates. To
evaluate teleportation in practice, we develop a projected-gradient-type method
requiring only Hessian-vector products. We use this method to show that
gradient methods with access to a teleportation oracle uniformly out-perform
their standard versions on a variety of learning problems.
- Abstract(参考訳): 目的関数のレベルセット上の勾配ノルムを最大化することにより勾配法を高速化する最適化サブルーチンであるレベルセットテレポーテーションについて検討する。
降下補題は勾配降下(GD)が勾配の2乗ノルムに比例する目的を減少させることを意味するので、レベルセットのテレポーテーションはこの一段階の進行保証を最大化する。
ヘッセン安定度を満たす凸関数に対して、準線形/線形収束率の組合せは、最適性ギャップが小さいときに標準GDよりも厳密に高速であることを示す。
これは、レベルセットのテレポーテーションが収束率を改善も悪くもしないことを示す標準(強く)凸設定とは対照的である。
テレポーテーションを実際に評価するために,ヘシアンベクトル生成物のみを必要とする投影勾配型手法を開発した。
本手法は,テレポーテーション・オラクルにアクセス可能な勾配法が,様々な学習問題において,標準版よりも一様に優れていることを示す。
関連論文リスト
- Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Parameter-free projected gradient descent [0.0]
我々は、射影勾配 Descent (PGD) を用いて、閉凸集合上の凸関数を最小化する問題を考える。
本稿では,AdaGradのパラメータフリーバージョンを提案する。これは初期化と最適化の距離に適応し,下位段階の平方ノルムの和に適応する。
提案アルゴリズムはプロジェクションステップを処理でき、リスタートを伴わず、従来のPGDと比較して軌道に沿ってリウィーディングや追加評価を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T07:22:44Z) - Symmetry Teleportation for Accelerated Optimization [21.989906418276906]
我々は、パラメータが損失レベルセット上で大きな距離を移動できるようにする、異なるアプローチ、対称性のテレポーテーションについて研究する。
テスト関数と多層ニューラルネットワークの損失不変群作用を導出し,テレポーテーションが収束率を向上するために必要な条件を証明した。
実験により,テスト関数,多層回帰,MNIST分類などの最適化問題に対して,テレポーテーションにより勾配降下とAdaGradの収束速度が向上することを示した。
論文 参考訳(メタデータ) (2022-05-21T16:39:21Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Walking in the Shadow: A New Perspective on Descent Directions for
Constrained Minimization [29.861939940760898]
影内移動の連続時間ダイナミクスは、投影勾配降下(PGD)のダイナミクスと等価であることを示す。
我々はこれらの知見を,線形収束を楽しみながらFWとシャドウステップを利用する新しいシャドウ-CG手法に組み合わせる。
単純なポリトープに対するブレークポイント数に対する線形境界と、一般的なポリトープに対するスケーリング不変な上限を与える。
論文 参考訳(メタデータ) (2020-06-15T14:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。