論文の概要: Ginger: An Efficient Curvature Approximation with Linear Complexity for
General Neural Networks
- arxiv url: http://arxiv.org/abs/2402.03295v1
- Date: Mon, 5 Feb 2024 18:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:05:55.701226
- Title: Ginger: An Efficient Curvature Approximation with Linear Complexity for
General Neural Networks
- Title(参考訳): ジンジャー:一般ニューラルネットワークのための線形複雑度を持つ効率的な曲率近似
- Authors: Yongchang Hao, Yanshuai Cao, Lili Mou
- Abstract要約: ガウス・ニュートン法のような二階最適化手法は、目的関数の曲率情報を利用するため、より強力であると考えられる。
一般化されたガウスニュートン行列の近似の固有元であるギンガーを提案する。
- 参考スコア(独自算出の注目度): 33.96967104979137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Second-order optimization approaches like the generalized Gauss-Newton method
are considered more powerful as they utilize the curvature information of the
objective function with preconditioning matrices. Albeit offering tempting
theoretical benefits, they are not easily applicable to modern deep learning.
The major reason is due to the quadratic memory and cubic time complexity to
compute the inverse of the matrix. These requirements are infeasible even with
state-of-the-art hardware. In this work, we propose Ginger, an
eigendecomposition for the inverse of the generalized Gauss-Newton matrix. Our
method enjoys efficient linear memory and time complexity for each iteration.
Instead of approximating the conditioning matrix, we directly maintain its
inverse to make the approximation more accurate. We provide the convergence
result of Ginger for non-convex objectives. Our experiments on different tasks
with different model architectures verify the effectiveness of our method. Our
code is publicly available.
- Abstract(参考訳): 一般化されたガウス・ニュートン法のような二階最適化手法は、事前条件行列による目的関数の曲率情報を利用するため、より強力と考えられる。
誘惑的な理論的利点を提供するが、現代のディープラーニングには容易に適用できない。
主な理由は、行列の逆数を計算するのに二次記憶と立方体時間の複雑さが原因である。
これらの要件は最先端のハードウェアでも実現できない。
本稿では,一般化ガウス・ニュートン行列の逆行列に対する固有分解であるジンジャーを提案する。
本手法は,反復毎に効率的なリニアメモリと時間複雑性を享受する。
条件行列を近似する代わりに、近似をより正確にするためにその逆を直接維持する。
非凸目的に対してジンジャーの収束結果を提供する。
異なるモデルアーキテクチャの異なるタスクに対する実験により,本手法の有効性が検証された。
私たちのコードは公開されています。
関連論文リスト
- KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned
Stochastic Optimization [69.47358238222586]
第2の順序付けにより、パラメータのステップサイズと方向を変更でき、損失曲率に適応できる。
最近、シャンプーはこれらの要求を減らすためにクローネッカーファクター付きプレコンディショナーを導入した。
不条件行列の逆行列根を取る。
これは64ビットの精度が必要で、ハードウェアの制約が強い。
論文 参考訳(メタデータ) (2023-05-30T21:15:45Z) - Neural incomplete factorization: learning preconditioners for the conjugate gradient method [2.899792823251184]
我々は、効率的なプレコンディショナーの生成を加速するためのデータ駆動型アプローチを開発する。
一般的に手動のプリコンディショナーをグラフニューラルネットワークの出力に置き換える。
本手法は, 行列の不完全分解を発生させ, 神経不完全分解(NeuralIF)と呼ばれる。
論文 参考訳(メタデータ) (2023-05-25T11:45:46Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Robust 1-bit Compressive Sensing with Partial Gaussian Circulant
Matrices and Generative Priors [54.936314353063494]
我々は,ロバストな1ビット圧縮センシングのための相関に基づく最適化アルゴリズムのリカバリ保証を提供する。
我々は,実用的な反復アルゴリズムを用いて,画像データセットの数値実験を行い,結果の相関付けを行う。
論文 参考訳(メタデータ) (2021-08-08T05:28:06Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Improved Knowledge Distillation via Full Kernel Matrix Transfer [21.533095275253466]
知識蒸留は深層学習におけるモデル圧縮に有効な方法である。
元の完全行列をNystr"om法で分解する。
完全行列と比較して、部分行列のサイズは例の数で線型である。
論文 参考訳(メタデータ) (2020-09-30T04:03:09Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。