論文の概要: Second-Order Forward-Mode Automatic Differentiation for Optimization
- arxiv url: http://arxiv.org/abs/2408.10419v1
- Date: Mon, 19 Aug 2024 21:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 17:43:23.876826
- Title: Second-Order Forward-Mode Automatic Differentiation for Optimization
- Title(参考訳): 最適化のための2次フォワードモード自動微分
- Authors: Adam D. Cobb, Atılım Güneş Baydin, Barak A. Pearlmutter, Susmit Jha,
- Abstract要約: 本稿では,2階の高平面探索を行から$k$次元の高平面への2階の線探索を一般化する新しい最適化ステップとして紹介する。
これはフォワードモード勾配法と組み合わせて、フォワードパスのみからなる2階最適化アルゴリズムが得られる。
- 参考スコア(独自算出の注目度): 10.783826845783745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a second-order hyperplane search, a novel optimization step that generalizes a second-order line search from a line to a $k$-dimensional hyperplane. This, combined with the forward-mode stochastic gradient method, yields a second-order optimization algorithm that consists of forward passes only, completely avoiding the storage overhead of backpropagation. Unlike recent work that relies on directional derivatives (or Jacobian--Vector Products, JVPs), we use hyper-dual numbers to jointly evaluate both directional derivatives and their second-order quadratic terms. As a result, we introduce forward-mode weight perturbation with Hessian information (FoMoH). We then use FoMoH to develop a novel generalization of line search by extending it to a hyperplane search. We illustrate the utility of this extension and how it might be used to overcome some of the recent challenges of optimizing machine learning models without backpropagation. Our code is open-sourced at https://github.com/SRI-CSL/fomoh.
- Abstract(参考訳): 本稿では,2階の高平面探索を行から$k$次元の高平面への2階の線探索を一般化する新しい最適化ステップとして紹介する。
これは、フォワードモード確率勾配法と組み合わせて、フォワードパスのみからなる2階最適化アルゴリズムを生成し、バックプロパゲーションのストレージオーバーヘッドを完全に回避する。
方向微分(もしくはヤコビアン-ベクトル積、JVP)に依存する最近の研究とは異なり、超双対数を用いて方向微分とその二階二次項を共同で評価する。
その結果, Hessian information (FoMoH) を用いた前方モードの重量摂動を導入した。
次に、FoMoHを用いて、それを超平面探索に拡張することで、ラインサーチの新たな一般化を開発する。
この拡張の有用性と、バックプロパゲーションなしで機械学習モデルを最適化する最近の課題を克服する方法について説明する。
私たちのコードはhttps://github.com/SRI-CSL/fomoh.comで公開されている。
関連論文リスト
- SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - AdaSub: Stochastic Optimization Using Second-Order Information in
Low-Dimensional Subspaces [0.0]
本稿では,低次元部分空間における2階情報に基づく探索方向の探索アルゴリズムであるAdaSubを紹介する。
一階法と比較して、二階法は収束特性が優れているが、繰り返しごとにヘッセン行列を計算する必要があるため、計算コストが過大になる。
予備的な数値結果から、AdaSubは所定の精度に達するのに必要なイテレーションの時間と回数で、一般的なイテレーションを超越していることが示される。
論文 参考訳(メタデータ) (2023-10-30T22:24:23Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Eva: A General Vectorized Approximation Framework for Second-order
Optimization [16.647611352181574]
メモリ効率と時間効率の2次アルゴリズムであるEvaを2つの新しい手法で提案する。
我々はシャーマン・モリソンの公式を使用する逆計算を明示的に行わずに効率的な更新式を導出する。
実験によると、Evaは1次SGDと2次アルゴリズムと比較して、エンドツーエンドのトレーニング時間を2.05倍と2.42倍に短縮する。
論文 参考訳(メタデータ) (2023-08-04T03:51:38Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Efficient Matrix-Free Approximations of Second-Order Information, with
Applications to Pruning and Optimization [16.96639526117016]
Inverse-Hessian Vector Products (IHVPs) の行列のない線形時間アプローチについて検討する。
これらのアルゴリズムは、既存の2階法と比較して計算オーバーヘッドが低いネットワークプルーニングと最適化の最先端結果をもたらす。
論文 参考訳(メタデータ) (2021-07-07T17:01:34Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Intermediate Layer Optimization for Inverse Problems using Deep
Generative Models [86.29330440222199]
ILOは、深層生成モデルを用いて逆問題を解決するための新しい最適化アルゴリズムである。
提案手法は,StyleGAN-2 や PULSE で導入した最先端手法よりも幅広い逆問題に対して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-15T06:52:22Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。