論文の概要: Adapting Newton's Method to Neural Networks through a Summary of
Higher-Order Derivatives
- arxiv url: http://arxiv.org/abs/2312.03885v2
- Date: Sat, 3 Feb 2024 09:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:41:50.858016
- Title: Adapting Newton's Method to Neural Networks through a Summary of
Higher-Order Derivatives
- Title(参考訳): 高次微分の要約によるニューラルネットへのニュートン法の適用
- Authors: Pierre Wolinski
- Abstract要約: 関数 $boldsymboltheta$ に適用した勾配に基づく最適化法を考える。
このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a gradient-based optimization method applied to a function
$\mathcal{L}$ of a vector of variables $\boldsymbol{\theta}$, in the case where
$\boldsymbol{\theta}$ is represented as a tuple of tensors $(\mathbf{T}_1,
\cdots, \mathbf{T}_S)$. This framework encompasses many common use-cases, such
as training neural networks by gradient descent. First, we propose a
computationally inexpensive technique providing higher-order information on
$\mathcal{L}$, especially about the interactions between the tensors
$\mathbf{T}_s$, based on automatic differentiation and computational tricks.
Second, we use this technique at order 2 to build a second-order optimization
method which is suitable, among other things, for training deep neural networks
of various architectures. This second-order method leverages the partition
structure of $\boldsymbol{\theta}$ into tensors $(\mathbf{T}_1, \cdots,
\mathbf{T}_S)$, in such a way that it requires neither the computation of the
Hessian of $\mathcal{L}$ according to $\boldsymbol{\theta}$, nor any
approximation of it. The key part consists in computing a smaller matrix
interpretable as a "Hessian according to the partition", which can be computed
exactly and efficiently. In contrast to many existing practical second-order
methods used in neural networks, which perform a diagonal or block-diagonal
approximation of the Hessian or its inverse, the method we propose does not
neglect interactions between layers. Finally, we can tune the coarseness of the
partition to recover well-known optimization methods: the coarsest case
corresponds to Cauchy's steepest descent method, the finest case corresponds to
the usual Newton's method.
- Abstract(参考訳): 変数のベクトルの関数 $\mathcal{L}$ に適用される勾配に基づく最適化法を、$\boldsymbol{\theta}$ がテンソル $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$ のタプルとして表される場合に考える。
このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。
まず, テンソル$\mathbf{T}_s$ 上の高次情報, 特にテンソル $\mathbf{T}_s$ 間の相互作用について, 自動微分と計算手法に基づいて高次情報を提供する計算コスト手法を提案する。
第2に,この手法を順序2で使用し,様々なアーキテクチャの深層ニューラルネットワークの学習に適した2次最適化手法を構築した。
この二階法では、$\boldsymbol{\theta}$ の分割構造をテンソル $(\mathbf{t}_1, \cdots, \mathbf{t}_s)$ に利用し、$\boldsymbol{\theta}$ に従えば $\mathcal{l}$ のヘッセンの計算も必要としない。
鍵となる部分は、より小さな行列を「分割に従ってヘッセン」と解釈し、正確に効率的に計算できる計算である。
ヘシアンあるいはその逆の対角あるいはブロック対角近似を行うニューラルネットワークで用いられる多くの既存の実用的二階法とは対照的に、提案手法は層間の相互作用を無視しない。
最後に、分割の粗さを調整してよく知られた最適化手法を復元することができる: 粗いケースはコーシーの最も急降下法に対応し、最も細かいケースは通常のニュートン法に対応している。
関連論文リスト
- A Quasilinear Algorithm for Computing Higher-Order Derivatives of Deep Feed-Forward Neural Networks [0.0]
$n$-TangentProp は指数時間ではなく、準線形の $dn/dxn f(x)$ を計算する。
物理インフォームドニューラルネットワークの文脈において,本手法が特に有用であることを示す。
論文 参考訳(メタデータ) (2024-12-12T22:57:28Z) - FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。
本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T10:57:30Z) - Self-concordant Smoothing for Large-Scale Convex Composite Optimization [0.0]
2つの凸関数の和を最小化する自己協和スムージングの概念を導入し、そのうちの1つは滑らかであり、もう1つは非滑らかである。
本稿では, 近位ニュートンアルゴリズムであるProx-N-SCOREと近位一般化したガウスニュートンアルゴリズムであるProx-GGN-SCOREの2つのアルゴリズムの収束性を証明する。
論文 参考訳(メタデータ) (2023-09-04T19:47:04Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。
既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。
グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文 参考訳(メタデータ) (2022-06-04T15:02:36Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Implicit differentiation for fast hyperparameter selection in non-smooth
convex learning [87.60600646105696]
内部最適化問題が凸であるが非滑らかである場合の一階法を研究する。
本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。
論文 参考訳(メタデータ) (2021-05-04T17:31:28Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。