論文の概要: HesScale: Scalable Computation of Hessian Diagonals
- arxiv url: http://arxiv.org/abs/2210.11639v1
- Date: Thu, 20 Oct 2022 23:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 16:03:27.141866
- Title: HesScale: Scalable Computation of Hessian Diagonals
- Title(参考訳): HesScale: ヘッセン対角線のスケーラブルな計算
- Authors: Mohamed Elsayed, A. Rupam Mahmood
- Abstract要約: HesScaleは、ヘッセン行列の対角線を近似するスケーラブルなアプローチである。
HesScaleはバックプロパゲーションと同じ計算複雑性を持つことを示す。
- 参考スコア(独自算出の注目度): 2.398608007786179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Second-order optimization uses curvature information about the objective
function, which can help in faster convergence. However, such methods typically
require expensive computation of the Hessian matrix, preventing their usage in
a scalable way. The absence of efficient ways of computation drove the most
widely used methods to focus on first-order approximations that do not capture
the curvature information. In this paper, we develop HesScale, a scalable
approach to approximating the diagonal of the Hessian matrix, to incorporate
second-order information in a computationally efficient manner. We show that
HesScale has the same computational complexity as backpropagation. Our results
on supervised classification show that HesScale achieves high approximation
accuracy, allowing for scalable and efficient second-order optimization.
- Abstract(参考訳): 2階最適化では、目的関数に関する曲率情報を使用し、より高速な収束に役立つ。
しかし、そのような方法は一般にヘッセン行列の高価な計算を必要とし、スケーラブルな方法での使用を妨げている。
効率的な計算方法の欠如は、曲率情報を捉えない一階近似にフォーカスする最も広く使われる方法となった。
本稿では,ヘッセン行列の対角線を近似するスケーラブルな手法であるHesScaleを開発し,2次情報を計算的に効率的に組み込む。
HesScaleはバックプロパゲーションと同じ計算複雑性を持つことを示す。
教師付き分類の結果,hesscaleは高い近似精度を達成でき,スケーラブルで効率的な二階最適化が可能となった。
関連論文リスト
- Approximating Metric Magnitude of Point Sets [4.522729058300309]
計量等級は、多くの望ましい幾何学的性質を持つ点雲の「大きさ」の尺度である。
様々な数学的文脈に適応しており、最近の研究は機械学習と最適化アルゴリズムを強化することを示唆している。
本稿では, 等級問題について検討し, 効率よく近似する方法を示し, 凸最適化問題として扱うことができるが, 部分モジュラ最適化としては適用できないことを示す。
本稿では,高速に収束し精度の高い反復近似アルゴリズムと,計算をより高速に行うサブセット選択法という,2つの新しいアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2024-09-06T17:15:28Z) - Revisiting Scalable Hessian Diagonal Approximations for Applications in Reinforcement Learning [6.383513606898132]
二次情報は多くのアプリケーションにとって価値があるが、計算は困難である。
BL89よりも改善されたHesScaleを導入し、無視できる余分な計算を追加した。
小さなネットワークでは、この改善は全ての代替品よりも高い品質であり、不偏性のような理論的保証のあるものでさえも計算がより安価である。
論文 参考訳(メタデータ) (2024-06-05T13:53:20Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order
Information [37.70729542263343]
本稿では,大規模機械学習問題に対する適応最適化アルゴリズムを提案する。
我々の手法は方向とステップサイズを動的に適応させる。
我々の手法は退屈なチューニング率チューニングを必要としない。
論文 参考訳(メタデータ) (2021-09-11T06:39:50Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。
我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。
また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-16T09:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。