論文の概要: Jorge: Approximate Preconditioning for GPU-efficient Second-order
Optimization
- arxiv url: http://arxiv.org/abs/2310.12298v1
- Date: Wed, 18 Oct 2023 19:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:55:13.507426
- Title: Jorge: Approximate Preconditioning for GPU-efficient Second-order
Optimization
- Title(参考訳): Jorge: GPU効率の2階最適化のための近似プレコンディショニング
- Authors: Siddharth Singh, Zachary Sating, Abhinav Bhatele
- Abstract要約: 両世界のベストを約束する二階法であるJorgeを紹介します -- 2階法の迅速な収束効果と、一階法に典型的な高い計算効率です。
プリコンディショナーの近似を用いて,計算行列の逆計算の計算ボトルネックを完全に排除することで,計算行列の計算ボトルネックに対処する。
- 参考スコア(独自算出の注目度): 2.081667369602538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their better convergence properties compared to first-order
optimizers, second-order optimizers for deep learning have been less popular
due to their significant computational costs. The primary efficiency bottleneck
in such optimizers is matrix inverse calculations in the preconditioning step,
which are expensive to compute on GPUs. In this paper, we introduce Jorge, a
second-order optimizer that promises the best of both worlds -- rapid
convergence benefits of second-order methods, and high computational efficiency
typical of first-order methods. We address the primary computational bottleneck
of computing matrix inverses by completely eliminating them using an
approximation of the preconditioner computation. This makes Jorge extremely
efficient on GPUs in terms of wall-clock time. Further, we describe an approach
to determine Jorge's hyperparameters directly from a well-tuned SGD baseline,
thereby significantly minimizing tuning efforts. Our empirical evaluations
demonstrate the distinct advantages of using Jorge, outperforming
state-of-the-art optimizers such as SGD, AdamW, and Shampoo across multiple
deep learning models, both in terms of sample efficiency and wall-clock time.
- Abstract(参考訳): 1次オプティマイザに比べて収束性は優れているが、深層学習のための2次オプティマイザは計算コストが大きいためあまり人気がない。
このようなオプティマイザの主な効率ボトルネックは、プリコンディショニングステップにおける行列逆計算である。
本稿では、二階法の急速な収束効果と一階法の典型的な計算効率の両立を約束する二階最適化器である jorge を紹介する。
我々は,プリコンディショナ計算の近似を用いて,計算行列の逆計算の主計算ボトルネックに対処する。
これによりJorgeは、ウォールタイムの点でGPU上で極めて効率が良い。
さらに,よく調整されたsgdベースラインから直接jorgeのハイパーパラメータを決定する手法について述べる。
実験による評価では,サンプル効率と壁面時間の両方で,SGD,AdamW,Shmpooといった最先端の最適化モデルよりも優れたJorgeを用いることのメリットが示された。
関連論文リスト
- SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - Eva: A General Vectorized Approximation Framework for Second-order
Optimization [16.647611352181574]
メモリ効率と時間効率の2次アルゴリズムであるEvaを2つの新しい手法で提案する。
我々はシャーマン・モリソンの公式を使用する逆計算を明示的に行わずに効率的な更新式を導出する。
実験によると、Evaは1次SGDと2次アルゴリズムと比較して、エンドツーエンドのトレーニング時間を2.05倍と2.42倍に短縮する。
論文 参考訳(メタデータ) (2023-08-04T03:51:38Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - Recommender System Expedited Quantum Control Optimization [0.0]
量子制御最適化アルゴリズムは、最適な量子ゲートや効率的な量子状態転送を生成するために日常的に使用される。
効率的な最適化アルゴリズムの設計には2つの大きな課題がある。
本稿では,後者の課題に対処するため,機械学習手法,特にレコメンダシステム(RS)を提案する。
論文 参考訳(メタデータ) (2022-01-29T10:25:41Z) - Implementation of Parallel Simplified Swarm Optimization in CUDA [2.322689362836168]
最適化コンピューティングでは、インテリジェントなSwarmアルゴリズム(SIAs)が並列化に適している。
本稿では,計算能力と汎用性を考慮したGPUに基づくSimplified Swarm Algorithm Optimization (PSSO)を提案する。
結果から,Nの次数による時間複雑性の低減が達成され,資源プリエンプションの問題は完全に回避された。
論文 参考訳(メタデータ) (2021-10-01T00:15:45Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Private Stochastic Convex Optimization: Optimal Rates in Linear Time [74.47681868973598]
本研究では,凸損失関数の分布から得られた個体群損失を最小化する問題について検討する。
Bassilyらによる最近の研究は、$n$のサンプルを与えられた過剰な人口損失の最適境界を確立している。
本稿では,余剰損失に対する最適境界を達成するとともに,$O(minn, n2/d)$グラデーション計算を用いて凸最適化アルゴリズムを導出する2つの新しい手法について述べる。
論文 参考訳(メタデータ) (2020-05-10T19:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。