論文の概要: Nystrom Method for Accurate and Scalable Implicit Differentiation
- arxiv url: http://arxiv.org/abs/2302.09726v1
- Date: Mon, 20 Feb 2023 02:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 16:55:27.106772
- Title: Nystrom Method for Accurate and Scalable Implicit Differentiation
- Title(参考訳): 正確かつスケーラブルな暗黙的分化のためのナイストロム法
- Authors: Ryuichiro Hataya and Makoto Yamada
- Abstract要約: 我々は,Nystrom法が他の手法と同等あるいは優れた性能を連続的に達成していることを示す。
提案手法は数値的な不安定さを回避し,反復を伴わない行列演算で効率的に計算できる。
- 参考スコア(独自算出の注目度): 25.29277451838466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The essential difficulty of gradient-based bilevel optimization using
implicit differentiation is to estimate the inverse Hessian vector product with
respect to neural network parameters. This paper proposes to tackle this
problem by the Nystrom method and the Woodbury matrix identity, exploiting the
low-rankness of the Hessian. Compared to existing methods using iterative
approximation, such as conjugate gradient and the Neumann series approximation,
the proposed method avoids numerical instability and can be efficiently
computed in matrix operations without iterations. As a result, the proposed
method works stably in various tasks and is faster than iterative
approximations. Throughout experiments including large-scale hyperparameter
optimization and meta learning, we demonstrate that the Nystrom method
consistently achieves comparable or even superior performance to other
approaches. The source code is available from
https://github.com/moskomule/hypergrad.
- Abstract(参考訳): 暗黙微分を用いた勾配に基づく双レベル最適化の重要な難しさは、ニューラルネットワークパラメータに関する逆ヘッセンベクトル積を推定することである。
本稿では,この問題にNystrom法とWoodbury行列等式を用いて対処し,ヘッセンの低ランク性を活用することを提案する。
共役勾配やノイマン級数近似などの反復近似を用いた既存手法と比較して,提案手法は数値不安定を回避し,反復を伴わない行列演算で効率的に計算できる。
その結果,提案手法は様々なタスクで安定に動作し,反復近似よりも高速である。
大規模なハイパーパラメータ最適化やメタラーニングを含む実験を通して,Nystrom法が他の手法と同等あるいは優れた性能を確実に達成できることを実証した。
ソースコードはhttps://github.com/moskomule/hypergrad.comから入手できる。
関連論文リスト
- A Natural Primal-Dual Hybrid Gradient Method for Adversarial Neural Network Training on Solving Partial Differential Equations [9.588717577573684]
偏微分方程式(PDE)を解くためのスケーラブルな事前条件付き原始ハイブリッド勾配アルゴリズムを提案する。
本稿では,提案手法の性能を,一般的なディープラーニングアルゴリズムと比較する。
その結果,提案手法は効率的かつ堅牢に動作し,安定に収束することが示唆された。
論文 参考訳(メタデータ) (2024-11-09T20:39:10Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Neural incomplete factorization: learning preconditioners for the conjugate gradient method [2.899792823251184]
我々は、効率的なプレコンディショナーの生成を加速するためのデータ駆動型アプローチを開発する。
一般的に手動のプリコンディショナーをグラフニューラルネットワークの出力に置き換える。
本手法は, 行列の不完全分解を発生させ, 神経不完全分解(NeuralIF)と呼ばれる。
論文 参考訳(メタデータ) (2023-05-25T11:45:46Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Converting ADMM to a Proximal Gradient for Convex Optimization Problems [4.56877715768796]
融解ラッソや凸クラスタリングなどのスパース推定では、問題を解くために、近位勾配法またはマルチプライヤー(ADMM)の交互方向法のいずれかを適用します。
本論文では,制約と目的が強く凸であると仮定し,ADMM溶液を近位勾配法に変換する一般的な方法を提案する。
数値実験により, 効率の面で有意な改善が得られることを示した。
論文 参考訳(メタデータ) (2021-04-22T07:41:12Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - A Hybrid-Order Distributed SGD Method for Non-Convex Optimization to
Balance Communication Overhead, Computational Complexity, and Convergence
Rate [28.167294398293297]
通信負荷の少ない分散勾配降下法(SGD)を提案する。
各イテレーションにおける計算複雑性を低減するために、ワーカノードは、方向微分をゼロ階勾配推定で近似する。
論文 参考訳(メタデータ) (2020-03-27T14:02:15Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。