論文の概要: Efficient Bilevel Optimization with KFAC-Based Hypergradients
- arxiv url: http://arxiv.org/abs/2603.29108v1
- Date: Tue, 31 Mar 2026 00:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.967323
- Title: Efficient Bilevel Optimization with KFAC-Based Hypergradients
- Title(参考訳): KFAC-based hypergradients を用いた高効率二値最適化
- Authors: Disen Liao, Felix Dangel, Yaoliang Yu,
- Abstract要約: 双方向最適化(BO)は多くの機械学習問題に適用可能である。
我々は暗黙関数定理に基づくアルゴリズムを構築し、Kronecker-factored approximate curvature (KFAC)を導入することを提案する。
KFACは、 Conjugate Gradient (CG) や Neumann 法よりも優れた性能効率のトレードオフを持つ曲率対応ハイパーグラディエントを生成する。
- 参考スコア(独自算出の注目度): 31.485951578283277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bilevel optimization (BO) is widely applicable to many machine learning problems. Scaling BO, however, requires repeatedly computing hypergradients, which involves solving inverse Hessian-vector products (IHVPs). In practice, these operations are often approximated using crude surrogates such as one-step gradient unrolling or identity/short Neumann expansions, which discard curvature information. We build on implicit function theorem-based algorithms and propose to incorporate Kronecker-factored approximate curvature (KFAC), yielding curvature-aware hypergradients with a better performance efficiency trade-off than Conjugate Gradient (CG) or Neumann methods and consistently outperforming unrolling. We evaluate this approach across diverse tasks, including meta-learning and AI safety problems. On models up to BERT, we show that curvature information is valuable at scale, and KFAC can provide it with only modest memory and runtime overhead. Our implementation is available at https://github.com/liaodisen/NeuralBo.
- Abstract(参考訳): 双方向最適化(BO)は多くの機械学習問題に適用可能である。
しかし、BOのスケーリングには、逆 Hessian-vector product (IHVPs) の解決を含む、過次計算の繰り返しが必要となる。
実際には、これらの操作は、1段階の勾配展開や、曲率情報を捨てるアイデンティティ/ショートノイマン展開のような粗いサロゲートを用いて近似されることが多い。
我々は暗黙の関数定理に基づくアルゴリズムを構築し、Kronecker-factored approximate curvature (KFAC) を組み込むことを提案する。
メタラーニングやAI安全性の問題など、さまざまなタスクにまたがってこのアプローチを評価します。
BERTまでのモデルでは、曲率情報は大規模に価値があり、KFACは控えめなメモリとランタイムのオーバーヘッドしか提供できない。
私たちの実装はhttps://github.com/liaodisen/NeuralBo.orgで公開されています。
関連論文リスト
- Linearly Convergent Mixup Learning [0.0]
より広い範囲のバイナリ分類モデルに拡張する2つの新しいアルゴリズムを提案する。
勾配に基づくアプローチとは異なり、我々のアルゴリズムは学習率のようなハイパーパラメータを必要とせず、実装と最適化を単純化する。
我々のアルゴリズムは、降下勾配法と比較して最適解への高速収束を実現し、ミックスアップデータの増大は、様々な損失関数の予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-01-14T02:33:40Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Non-Convex Bilevel Optimization with Time-Varying Objective Functions [57.299128109226025]
本稿では,時間変化の可能なオンライン二段階最適化を提案し,エージェントがオンラインデータを用いて決定を継続的に更新する。
既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。
軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-07T06:27:57Z) - Inexact bilevel stochastic gradient methods for constrained and
unconstrained lower-level problems [0.0]
2段階の定式探索最適化は多くの機械学習の文脈で有効になっている。
2階微分を必要としない新しい低ランク二階勾配法が開発されている。
論文 参考訳(メタデータ) (2021-10-01T18:20:14Z) - Explicit Gradient Learning [28.844181847562695]
Black-Box Optimization (BBO) 法は解析的表現のない最適システムを見つけることができる。
EGLは、目標勾配を直接推定するためにNNを訓練する。
論文 参考訳(メタデータ) (2020-06-09T08:56:24Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。