論文の概要: Understanding the Generalization of Bilevel Programming in Hyperparameter Optimization: A Tale of Bias-Variance Decomposition
- arxiv url: http://arxiv.org/abs/2602.17947v1
- Date: Fri, 20 Feb 2026 02:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.20745
- Title: Understanding the Generalization of Bilevel Programming in Hyperparameter Optimization: A Tale of Bias-Variance Decomposition
- Title(参考訳): ハイパーパラメータ最適化における双レベルプログラミングの一般化の理解:バイアス分散の物語
- Authors: Yubo Zhou, Jun Shu, Junmin Liu, Deyu Meng,
- Abstract要約: 我々は,HPOアルゴリズムの分散を効果的に低減するためのアンサンブル過次戦略を提案する。
過度な誤差と過度な推定の関連を確立し、経験的観察のある程度の理解を提供する。
- 参考スコア(独自算出の注目度): 53.68517860700599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based hyperparameter optimization (HPO) have emerged recently, leveraging bilevel programming techniques to optimize hyperparameter by estimating hypergradient w.r.t. validation loss. Nevertheless, previous theoretical works mainly focus on reducing the gap between the estimation and ground-truth (i.e., the bias), while ignoring the error due to data distribution (i.e., the variance), which degrades performance. To address this issue, we conduct a bias-variance decomposition for hypergradient estimation error and provide a supplemental detailed analysis of the variance term ignored by previous works. We also present a comprehensive analysis of the error bounds for hypergradient estimation. This facilitates an easy explanation of some phenomena commonly observed in practice, like overfitting to the validation set. Inspired by the derived theories, we propose an ensemble hypergradient strategy to reduce the variance in HPO algorithms effectively. Experimental results on tasks including regularization hyperparameter learning, data hyper-cleaning, and few-shot learning demonstrate that our variance reduction strategy improves hypergradient estimation. To explain the improved performance, we establish a connection between excess error and hypergradient estimation, offering some understanding of empirical observations.
- Abstract(参考訳): HPO(gradient-based hyperparameter optimization)が最近出現し、双レベルプログラミング技術を利用してハイパーパラメータを最適化し、ハイパーグラディエントw.r.t.バリデーション損失を推定している。
それにもかかわらず、従来の理論的研究は主に、推定と地道(すなわちバイアス)のギャップを減らし、データ分散(すなわち分散)による誤差を無視し、性能を低下させることに重点を置いていた。
この問題に対処するため、過次推定誤差に対するバイアス分散分解を行い、従来の研究で無視された分散項の補足的詳細解析を行う。
また,過次推定のための誤差境界を包括的に解析する。
これは、検証セットに過度に適合するなど、実際によく見られるいくつかの現象を簡単に説明するのに役立つ。
導出理論に着想を得て,HPOアルゴリズムの分散を効果的に低減するためのアンサンブル過次戦略を提案する。
正規化ハイパーパラメータ学習、データハイパークリーニング、少数ショット学習などのタスクの実験結果から、分散低減戦略が過次推定を改善することが示された。
改良された性能を説明するため,過度な誤差と過度な推定の関連性を確立し,経験的観察のある程度の理解を提供する。
関連論文リスト
- Overtuning in Hyperparameter Optimization [11.91482877988017]
オーバーチューニングの正式な定義を提供し、メタオーバーフィッティングのような関連する概念と区別する。
我々はHPOベンチマークデータを大規模に再解析し、オーバーチューニングの頻度と重症度を評価する。
以上の結果から,オーバーチューニングは従来想定されていたよりも一般的であり,通常は軽度であるが,時には重度であることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-24T11:49:48Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Error Bounds of Supervised Classification from Information-Theoretic Perspective [0.0]
我々は、情報理論の観点から、教師付き分類にディープニューラルネットワークを使用する場合の予測リスクのバウンダリについて検討する。
経験的リスクをさらに分解したモデルリスクとフィッティングエラーを導入する。
論文 参考訳(メタデータ) (2024-06-07T01:07:35Z) - Enhancing Hypergradients Estimation: A Study of Preconditioning and
Reparameterization [49.73341101297818]
双レベル最適化は、内部最適化問題の解に依存する外的目的関数を最適化することを目的としている。
外部問題の過次性を計算する従来の方法は、Implicit Function Theorem (IFT) を使うことである。
IFT法の誤差について検討し,この誤差を低減するための2つの手法を解析した。
論文 参考訳(メタデータ) (2024-02-26T17:09:18Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Learned ISTA with Error-based Thresholding for Adaptive Sparse Coding [58.73333095047114]
学習用ISTA(LISTA)のためのエラーベースのしきい値設定機構を提案する。
提案手法は, 縮小関数の学習可能なパラメータを再構成誤差からよく切り離していることを示す。
論文 参考訳(メタデータ) (2021-12-21T05:07:54Z) - Convergence Properties of Stochastic Hypergradients [34.81849268839475]
大規模データセットにおける低レベルの問題が経験的リスクである場合に重要となる過勾配の近似スキームについて検討する。
本研究では,理論解析を支援する数値実験を行い,実際にハイパーグラディエントを用いることの利点を示す。
論文 参考訳(メタデータ) (2020-11-13T20:50:36Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。