論文の概要: SGD with Partial Hessian for Deep Neural Networks Optimization
- arxiv url: http://arxiv.org/abs/2403.02681v1
- Date: Tue, 5 Mar 2024 06:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:57:55.651399
- Title: SGD with Partial Hessian for Deep Neural Networks Optimization
- Title(参考訳): ディープニューラルネットワーク最適化のための部分ヘシアン付きSGD
- Authors: Ying Sun, Hongwei Yong, Lei Zhang
- Abstract要約: 本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
- 参考スコア(独自算出の注目度): 18.78728272603732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the effectiveness of second-order algorithms in solving classical
optimization problems, designing second-order optimizers to train deep neural
networks (DNNs) has attracted much research interest in recent years. However,
because of the very high dimension of intermediate features in DNNs, it is
difficult to directly compute and store the Hessian matrix for network
optimization. Most of the previous second-order methods approximate the Hessian
information imprecisely, resulting in unstable performance. In this work, we
propose a compound optimizer, which is a combination of a second-order
optimizer with a precise partial Hessian matrix for updating channel-wise
parameters and the first-order stochastic gradient descent (SGD) optimizer for
updating the other parameters. We show that the associated Hessian matrices of
channel-wise parameters are diagonal and can be extracted directly and
precisely from Hessian-free methods. The proposed method, namely SGD with
Partial Hessian (SGD-PH), inherits the advantages of both first-order and
second-order optimizers. Compared with first-order optimizers, it adopts a
certain amount of information from the Hessian matrix to assist optimization,
while compared with the existing second-order optimizers, it keeps the good
generalization performance of first-order optimizers. Experiments on image
classification tasks demonstrate the effectiveness of our proposed optimizer
SGD-PH. The code is publicly available at
\url{https://github.com/myingysun/SGDPH}.
- Abstract(参考訳): 古典的最適化問題の解法における2次アルゴリズムの有効性により、深層ニューラルネットワーク(dnn)を訓練する2次最適化器の設計が近年研究の関心を集めている。
しかし、DNNの中間機能は非常に高次元であるため、ネットワーク最適化のためにHessian行列を直接計算し保存することは困難である。
以前の2階法のほとんどは不正確にヘッセン情報を近似し、不安定な性能をもたらす。
本研究では,チャネルワイドパラメータを更新するための2階最適化器と,他のパラメータを更新するための1階確率勾配降下(SGD)最適化器を組み合わせた複合オプティマイザを提案する。
チャネルワイドパラメータの関連するヘッセン行列は対角線であり、ヘッセンフリー法から直接正確に抽出可能であることを示す。
提案手法は,SGDと部分ヘシアン(SGD-PH)を併用し,一階最適化と二階最適化の両方の利点を継承する。
一階オプティマイザと比較して、既存の二階オプティマイザと比較して、一階オプティマイザの優れた一般化性能を維持しながら、ヘッセン行列からの一定の量の情報を用いて最適化を支援する。
画像分類タスクの実験は,提案した最適化SGD-PHの有効性を示す。
コードは \url{https://github.com/myingysun/SGDPH} で公開されている。
関連論文リスト
- Efficient Second-Order Neural Network Optimization via Adaptive Trust Region Methods [0.0]
SecondOrderAdaptive (SOAA) は、従来の二階法の限界を克服するために設計された新しい最適化アルゴリズムである。
私たちは、SOAAが1次近似よりも速く、より安定した収束を達成することを実証的に実証します。
論文 参考訳(メタデータ) (2024-10-03T08:23:06Z) - AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
本稿では,適応型プレコンディショニング勾配のためのフィッシャー情報行列に対して,ブロック対角近似を利用する適応型2次のAdaFisherを提案する。
AdaFisher は精度と収束速度の両方において SOTA よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T01:25:02Z) - Information-Theoretic Trust Regions for Stochastic Gradient-Based
Optimization [17.79206971486723]
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
我々は、勾配からヘッセンの対角要素を近似し、1次情報のみを用いて予測されたヘッセンのモデルを構築する。
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
論文 参考訳(メタデータ) (2023-10-31T16:08:38Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - FOSI: Hybrid First and Second Order Optimization [11.447526245792154]
本稿では,最適化プロセス中に二階情報を効率的に組み込むことにより,任意の一階目の性能を向上させるメタアルゴリズムFOSIを提案する。
我々の経験的評価は、FOSIがヘビーボールやアダムのような一階法の収束率と最適化時間を向上し、二階法(K-FAC, L-BFGS)よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-16T18:45:46Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - DAG Learning on the Permutahedron [33.523216907730216]
本稿では,観測データから潜在有向非巡回グラフ(DAG)を発見するための連続最適化フレームワークを提案する。
提案手法は、置換ベクトル(いわゆるペルムタヘドロン)のポリトープを最適化し、位相的順序付けを学習する。
論文 参考訳(メタデータ) (2023-01-27T18:22:25Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Incorporating Expert Prior in Bayesian Optimisation via Space Warping [54.412024556499254]
大きな探索空間では、アルゴリズムは関数の最適値に達する前に、いくつかの低関数値領域を通過する。
このコールドスタートフェーズの1つのアプローチは、最適化を加速できる事前知識を使用することである。
本稿では,関数の事前分布を通じて,関数の最適性に関する事前知識を示す。
先行分布は、探索空間を最適関数の高確率領域の周りに拡張し、最適関数の低確率領域の周りに縮小するようにワープする。
論文 参考訳(メタデータ) (2020-03-27T06:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。