論文の概要: Bilevel Learning via Inexact Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2511.06774v1
- Date: Mon, 10 Nov 2025 07:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.124365
- Title: Bilevel Learning via Inexact Stochastic Gradient Descent
- Title(参考訳): 非接触確率勾配Descenceによる二段階学習
- Authors: Mohammad Sadegh Salehi, Subhadip Mukherjee, Lindon Roberts, Matthias J. Ehrhardt,
- Abstract要約: バイレベル最適化は、高次元ハイパーチューニングのための機械学習の中心的なツールである。
両レベル最適化の不正確な理論を推し進める。
我々は収束を証明し、減衰精度とステップサイズスケジュールでレートを確立する。
- 参考スコア(独自算出の注目度): 5.312803257246881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bilevel optimization is a central tool in machine learning for high-dimensional hyperparameter tuning. Its applications are vast; for instance, in imaging it can be used for learning data-adaptive regularizers and optimizing forward operators in variational regularization. These problems are large in many ways: a lot of data is usually available to train a large number of parameters, calling for stochastic gradient-based algorithms. However, exact gradients with respect to parameters (so-called hypergradients) are not available, and their precision is usually linearly related to computational cost. Hence, algorithms must solve the problem efficiently without unnecessary precision. The design of such methods is still not fully understood, especially regarding how accuracy requirements and step size schedules affect theoretical guarantees and practical performance. Existing approaches introduce stochasticity at both the upper level (e.g., in sampling or mini-batch estimates) and the lower level (e.g., in solving the inner problem) to improve generalization, but they typically fix the number of lower-level iterations, which conflicts with asymptotic convergence assumptions. In this work, we advance the theory of inexact stochastic bilevel optimization. We prove convergence and establish rates under decaying accuracy and step size schedules, showing that with optimal configurations convergence occurs at an $\mathcal{O}(k^{-1/4})$ rate in expectation. Experiments on image denoising and inpainting with convex ridge regularizers and input-convex networks confirm our analysis: decreasing step sizes improve stability, accuracy scheduling is more critical than step size strategy, and adaptive preconditioning (e.g., Adam) further boosts performance. These results bridge theory and practice, providing convergence guarantees and practical guidance for large-scale imaging problems.
- Abstract(参考訳): バイレベル最適化は、高次元ハイパーパラメータチューニングのための機械学習の中心的なツールである。
例えば、イメージングでは、データ適応正規化子を学習し、変分正規化においてフォワード演算子を最適化するのに使うことができる。
多数のデータは通常、確率的勾配に基づくアルゴリズムを呼び出して、多数のパラメータをトレーニングするために利用できます。
しかし、パラメータ(いわゆるハイパーグラディエント)に関する正確な勾配は得られず、その精度は通常計算コストに線形に関係している。
したがって、アルゴリズムはその問題を不要な精度で効率的に解かなければならない。
このような手法の設計は、特に精度の要求やステップサイズのスケジュールが理論的な保証や実用性能にどのように影響するかについて、まだ完全には理解されていない。
既存のアプローチでは、一般化を改善するために上層(サンプリングやミニバッチ推定など)と下層(内部問題の解法など)の両方で確率性を導入するが、それらは典型的には漸近収束仮定と矛盾する下層反復の数を修正する。
本研究では,不正確な確率的二レベル最適化の理論を推し進める。
減衰精度とステップサイズスケジュールの下で収束を証明し、最適構成で収束が期待される$$\mathcal{O}(k^{-1/4})$レートで起こることを示す。
コンベックスリッジ正規化器と入力凸ネットワークによる画像のデノイングと塗装実験では,ステップサイズ削減により安定性が向上し,精度の高いスケジューリングがステップサイズ戦略よりも重要となり,適応型プレコンディショニング(例えばAdam)により性能がさらに向上した。
これらの結果はブリッジ理論と実践であり、大規模な撮像問題に対する収束保証と実用的なガイダンスを提供する。
関連論文リスト
- Bilevel Learning with Inexact Stochastic Gradients [2.247833425312671]
バイレベル学習は、機械学習、逆問題、イメージングアプリケーションで有名になった。
これらの問題の大規模な性質は、不正確な計算効率の手法の開発に繋がった。
論文 参考訳(メタデータ) (2024-12-16T18:18:47Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Analyzing Inexact Hypergradients for Bilevel Learning [0.09669369645900441]
暗黙の関数定理と自動微分/バックプロパゲーションに基づいて既存の手法を一般化する過次計算のための統一的なフレームワークを提案する。
計算結果から,高次アルゴリズムの選択は低次解法の選択と同等に重要であることが明らかとなった。
論文 参考訳(メタデータ) (2023-01-11T23:54:27Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。