論文の概要: Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives
- arxiv url: http://arxiv.org/abs/2312.03885v3
- Date: Thu, 23 Jan 2025 11:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:55:39.994325
- Title: Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives
- Title(参考訳): 高次導関数によるニューラルネットへのニュートン法の適用
- Authors: Pierre Wolinski,
- Abstract要約: 我々は、ヘッセン微分と高階微分の射影の厳密で明示的な計算に焦点をあてる。
そこで本研究では, テンソルの次数2, 次数3の最適化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: When training large models, such as neural networks, the full derivatives of order 2 and beyond are usually inaccessible, due to their computational cost. This is why, among the second-order optimization methods, it is very common to bypass the computation of the Hessian by using first-order information, such as the gradient of the parameters (e.g., quasi-Newton methods) or the activations (e.g., K-FAC). In this paper, we focus on the exact and explicit computation of projections of the Hessian and higher-order derivatives on well-chosen subspaces, which are relevant for optimization. Namely, for a given partition of the set of parameters, it is possible to compute tensors which can be seen as "higher-order derivatives according to the partition", at a reasonable cost as long as the number of subsets of the partition remains small. Then, we propose an optimization method exploiting these tensors at order 2 and 3 with several interesting properties, including: it outputs a learning rate per subset of parameters, which can be used for hyperparameter tuning; it takes into account long-range interactions between the layers of the trained neural network, which is usually not the case in similar methods (e.g., K-FAC); the trajectory of the optimization is invariant under affine layer-wise reparameterization. Code available at https://github.com/p-wol/GroupedNewton/ .
- Abstract(参考訳): ニューラルネットワークなどの大規模モデルのトレーニングでは、計算コストのため、オーダー2以降の完全なデリバティブは、通常はアクセス不能である。
このため、二階最適化法のうち、パラメータの勾配(例えば、準ニュートン法)やアクティベーション(例えば、K-FAC)といった一階情報を用いることで、ヘッセンの計算をバイパスすることが一般的である。
本稿では,Hessian および高階微分のウェル・チョーゼン部分空間上の射影の正確かつ明示的な計算に焦点をあてる。
すなわち、パラメータの集合の与えられた分割に対して、分割のサブセットの数が小さい限り、合理的なコストで「分割に従って高階微分」と見なされるテンソルを計算することができる。
次に,これらのテンソルを次数2,3で活用する最適化手法を提案する。パラメータのサブセット当たりの学習率を出力し,ハイパーパラメータチューニングに使用し,トレーニングされたニューラルネットワークの層間の長距離相互作用を考慮し,同様の手法(例えばK-FAC)では適用されない。
コードはhttps://github.com/p-wol/GroupedNewton/で公開されている。
関連論文リスト
- A Quasilinear Algorithm for Computing Higher-Order Derivatives of Deep Feed-Forward Neural Networks [0.0]
$n$-TangentProp は指数時間ではなく、準線形の $dn/dxn f(x)$ を計算する。
物理インフォームドニューラルネットワークの文脈において,本手法が特に有用であることを示す。
論文 参考訳(メタデータ) (2024-12-12T22:57:28Z) - FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。
本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T10:57:30Z) - Self-concordant Smoothing for Large-Scale Convex Composite Optimization [0.0]
2つの凸関数の和を最小化する自己協和スムージングの概念を導入し、そのうちの1つは滑らかであり、もう1つは非滑らかである。
本稿では, 近位ニュートンアルゴリズムであるProx-N-SCOREと近位一般化したガウスニュートンアルゴリズムであるProx-GGN-SCOREの2つのアルゴリズムの収束性を証明する。
論文 参考訳(メタデータ) (2023-09-04T19:47:04Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。
既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。
グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文 参考訳(メタデータ) (2022-06-04T15:02:36Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Implicit differentiation for fast hyperparameter selection in non-smooth
convex learning [87.60600646105696]
内部最適化問題が凸であるが非滑らかである場合の一階法を研究する。
本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。
論文 参考訳(メタデータ) (2021-05-04T17:31:28Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。