論文の概要: Information-Theoretic Trust Regions for Stochastic Gradient-Based
Optimization
- arxiv url: http://arxiv.org/abs/2310.20574v1
- Date: Tue, 31 Oct 2023 16:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:15:29.607293
- Title: Information-Theoretic Trust Regions for Stochastic Gradient-Based
Optimization
- Title(参考訳): 確率勾配最適化のための情報理論信頼領域
- Authors: Philipp Dahlinger, Philipp Becker, Maximilian H\"uttenrauch, Gerhard
Neumann
- Abstract要約: arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
我々は、勾配からヘッセンの対角要素を近似し、1次情報のみを用いて予測されたヘッセンのモデルを構築する。
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
- 参考スコア(独自算出の注目度): 17.79206971486723
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stochastic gradient-based optimization is crucial to optimize neural
networks. While popular approaches heuristically adapt the step size and
direction by rescaling gradients, a more principled approach to improve
optimizers requires second-order information. Such methods precondition the
gradient using the objective's Hessian. Yet, computing the Hessian is usually
expensive and effectively using second-order information in the stochastic
gradient setting is non-trivial. We propose using Information-Theoretic Trust
Region Optimization (arTuRO) for improved updates with uncertain second-order
information. By modeling the network parameters as a Gaussian distribution and
using a Kullback-Leibler divergence-based trust region, our approach takes
bounded steps accounting for the objective's curvature and uncertainty in the
parameters. Before each update, it solves the trust region problem for an
optimal step size, resulting in a more stable and faster optimization process.
We approximate the diagonal elements of the Hessian from stochastic gradients
using a simple recursive least squares approach, constructing a model of the
expected Hessian over time using only first-order information. We show that
arTuRO combines the fast convergence of adaptive moment-based optimization with
the generalization capabilities of SGD.
- Abstract(参考訳): 確率勾配に基づく最適化はニューラルネットワークの最適化に不可欠である。
一般的なアプローチでは、勾配の再スケーリングによってステップサイズと方向をヒューリスティックに適応するが、オプティマイザを改善するためのより原則的なアプローチでは、2次情報が必要である。
このような方法は、目標のヘッシアンを用いて勾配をプリコンディショニングする。
しかし、ヘシアンの計算は通常高価であり、確率勾配設定における二階情報の利用は非自明である。
我々は,情報理論的信頼領域最適化(arturo)を用いて,不確定な2次情報による更新を改善することを提案する。
ネットワークパラメータをガウス分布としてモデル化し,Kullback-Leibler分散に基づく信頼領域を用いて,パラメータの曲率と不確実性を考慮した有界ステップを用いる。
各更新の前に、最適なステップサイズで信頼領域の問題を解決し、より安定して高速な最適化プロセスを実現する。
簡単な再帰的最小二乗法を用いて確率勾配からヘッセンの対角要素を近似し, 1次情報のみを用いて予測されたヘッセンのモデルを構築する。
arTuROは適応モーメントに基づく最適化の高速収束とSGDの一般化能力を組み合わせたものであることを示す。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - Enhancing Gaussian Process Surrogates for Optimization and Posterior Approximation via Random Exploration [2.984929040246293]
ガウス過程シュロゲートモデルの精度を高めるために、ランダムな探索ステップに依存する新しいノイズフリーベイズ最適化戦略。
新しいアルゴリズムは、古典的なGP-UCBの実装の容易さを維持しているが、さらなる探索がそれらの収束を促進する。
論文 参考訳(メタデータ) (2024-01-30T14:16:06Z) - Automatic Optimisation of Normalised Neural Networks [1.0334138809056097]
ニューラルネットワークの正規化パラメータに対する行列多様体の幾何を考慮した自動最適化手法を提案する。
我々の手法はまずネットワークを初期化し、初期化ネットワークの$ell2$-$ell2$ゲインに関してデータを正規化する。
論文 参考訳(メタデータ) (2023-12-17T10:13:42Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - An adaptive stochastic gradient-free approach for high-dimensional
blackbox optimization [0.0]
本研究では,高次元非平滑化問題に対する適応勾配フリー (ASGF) アプローチを提案する。
本稿では,グローバルな問題と学習タスクのベンチマークにおいて,本手法の性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T22:47:58Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。