論文の概要: Learning Algorithm Hyperparameters for Fast Parametric Convex Optimization
- arxiv url: http://arxiv.org/abs/2411.15717v1
- Date: Sun, 24 Nov 2024 04:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:18:34.978975
- Title: Learning Algorithm Hyperparameters for Fast Parametric Convex Optimization
- Title(参考訳): 高速パラメトリック凸最適化のための学習アルゴリズムハイパーパラメータ
- Authors: Rajiv Sambharya, Bartolomeo Stellato,
- Abstract要約: 本稿では,一階法のハイパーパラメータ列を学習するための機械学習フレームワークを提案する。
いくつかのアルゴリズムのハイパーパラメータの学習方法を示す。
本稿では,制御,信号処理,機械学習など,多くの例を用いて本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 2.0403774954994858
- License:
- Abstract: We introduce a machine-learning framework to learn the hyperparameter sequence of first-order methods (e.g., the step sizes in gradient descent) to quickly solve parametric convex optimization problems. Our computational architecture amounts to running fixed-point iterations where the hyperparameters are the same across all parametric instances and consists of two phases. In the first step-varying phase the hyperparameters vary across iterations, while in the second steady-state phase the hyperparameters are constant across iterations. Our learned optimizer is flexible in that it can be evaluated on any number of iterations and is guaranteed to converge to an optimal solution. To train, we minimize the mean square error to a ground truth solution. In the case of gradient descent, the one-step optimal step size is the solution to a least squares problem, and in the case of unconstrained quadratic minimization, we can compute the two and three-step optimal solutions in closed-form. In other cases, we backpropagate through the algorithm steps to minimize the training objective after a given number of steps. We show how to learn hyperparameters for several popular algorithms: gradient descent, proximal gradient descent, and two ADMM-based solvers: OSQP and SCS. We use a sample convergence bound to obtain generalization guarantees for the performance of our learned algorithm for unseen data, providing both lower and upper bounds. We showcase the effectiveness of our method with many examples, including ones from control, signal processing, and machine learning. Remarkably, our approach is highly data-efficient in that we only use $10$ problem instances to train the hyperparameters in all of our examples.
- Abstract(参考訳): 本稿では,パラメトリック凸最適化問題を高速に解くために,一階法(勾配降下ステップサイズなど)のハイパーパラメータ列を学習するための機械学習フレームワークを提案する。
我々の計算アーキテクチャは、すべてのパラメトリックインスタンスでハイパーパラメータが同じであり、2つのフェーズから構成される固定点反復の実行に比例する。
第1段階の変化フェーズでは、ハイパーパラメータはイテレーションによって異なるが、第2段階の定常フェーズでは、ハイパーパラメータはイテレーション間で一定である。
私たちの学習したオプティマイザは、任意のイテレーションで評価可能であり、最適なソリューションに収束することが保証されるという点で柔軟です。
トレーニングでは、平均二乗誤差を基底真理解に最小化する。
勾配降下の場合、一段階最適ステップサイズは最小二乗問題の解であり、制約のない二次最小化の場合、2段階最適解と3段階最適解を閉形式で計算できる。
別のケースでは、与えられたステップの後にトレーニング目標を最小化するために、アルゴリズムステップをバックプロパゲートします。
我々は、勾配降下、近位勾配降下、および2つのADMMベースの解法、OSQPとSCSのハイパーパラメータの学習方法を示す。
我々は、サンプル収束バウンダリを用いて、学習したデータに対する学習アルゴリズムの性能の一般化保証を取得し、下界と上界の両方を提供する。
本稿では,制御,信号処理,機械学習など,多くの例を用いて本手法の有効性を示す。
注目すべきは、すべての例でハイパーパラメータのトレーニングに10ドルの問題インスタンスしか使用していないという点で、当社のアプローチは非常にデータ効率が高いことです。
関連論文リスト
- Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - Analyzing Inexact Hypergradients for Bilevel Learning [0.09669369645900441]
暗黙の関数定理と自動微分/バックプロパゲーションに基づいて既存の手法を一般化する過次計算のための統一的なフレームワークを提案する。
計算結果から,高次アルゴリズムの選択は低次解法の選択と同等に重要であることが明らかとなった。
論文 参考訳(メタデータ) (2023-01-11T23:54:27Z) - A Globally Convergent Gradient-based Bilevel Hyperparameter Optimization
Method [0.0]
ハイパーパラメータ最適化問題の解法として,勾配に基づく双レベル法を提案する。
提案手法は, より低い計算量に収束し, テストセットをより良く一般化するモデルに導かれることを示す。
論文 参考訳(メタデータ) (2022-08-25T14:25:16Z) - Online Hyperparameter Meta-Learning with Hypergradient Distillation [59.973770725729636]
勾配に基づくメタラーニング法は、内部最適化に関与しないパラメータのセットを仮定する。
知識蒸留による2次項の近似により,これらの限界を克服できる新しいHO法を提案する。
論文 参考訳(メタデータ) (2021-10-06T05:14:53Z) - Accelerated nonlinear primal-dual hybrid gradient algorithms with
applications to machine learning [0.0]
原始双対ハイブリッド勾配(PDHG)は、サドル点構造を持つ凸最適化問題をより小さなサブプロブレムに分割する一階法である。
PDHGは、手前の問題に対して微調整されたステップサイズパラメータを必要とする。
我々は,機械学習に関連する幅広い最適化問題に対して,PDHGアルゴリズムの高速化された非線形変種を導入する。
論文 参考訳(メタデータ) (2021-09-24T22:37:10Z) - Implicit differentiation for fast hyperparameter selection in non-smooth
convex learning [87.60600646105696]
内部最適化問題が凸であるが非滑らかである場合の一階法を研究する。
本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。
論文 参考訳(メタデータ) (2021-05-04T17:31:28Z) - A Momentum-Assisted Single-Timescale Stochastic Approximation Algorithm
for Bilevel Optimization [112.59170319105971]
問題に対処するための新しいアルゴリズム - Momentum- Single-timescale Approximation (MSTSA) を提案する。
MSTSAでは、低いレベルのサブプロブレムに対する不正確な解決策のため、反復でエラーを制御することができます。
論文 参考訳(メタデータ) (2021-02-15T07:10:33Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。