Fugu-MT 論文翻訳(概要): Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives

論文の概要: Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives

arxiv url: http://arxiv.org/abs/2312.03885v3
Date: Thu, 23 Jan 2025 11:18:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:06.921551
Title: Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives
Title（参考訳）: 高次導関数によるニューラルネットへのニュートン法の適用
Authors: Pierre Wolinski,
Abstract要約: 我々は、ヘッセン微分と高階微分の射影の厳密で明示的な計算に焦点をあてる。そこで本研究では, テンソルの次数2, 次数3の最適化手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When training large models, such as neural networks, the full derivatives of order 2 and beyond are usually inaccessible, due to their computational cost. This is why, among the second-order optimization methods, it is very common to bypass the computation of the Hessian by using first-order information, such as the gradient of the parameters (e.g., quasi-Newton methods) or the activations (e.g., K-FAC). In this paper, we focus on the exact and explicit computation of projections of the Hessian and higher-order derivatives on well-chosen subspaces, which are relevant for optimization. Namely, for a given partition of the set of parameters, it is possible to compute tensors which can be seen as "higher-order derivatives according to the partition", at a reasonable cost as long as the number of subsets of the partition remains small. Then, we propose an optimization method exploiting these tensors at order 2 and 3 with several interesting properties, including: it outputs a learning rate per subset of parameters, which can be used for hyperparameter tuning; it takes into account long-range interactions between the layers of the trained neural network, which is usually not the case in similar methods (e.g., K-FAC); the trajectory of the optimization is invariant under affine layer-wise reparameterization. Code available at https://github.com/p-wol/GroupedNewton/ .
Abstract（参考訳）: ニューラルネットワークなどの大規模モデルのトレーニングでは、計算コストのため、オーダー2以降の完全なデリバティブは、通常はアクセス不能である。このため、二階最適化法のうち、パラメータの勾配(例えば、準ニュートン法)やアクティベーション(例えば、K-FAC)といった一階情報を用いることで、ヘッセンの計算をバイパスすることが一般的である。本稿では,Hessian および高階微分のウェル・チョーゼン部分空間上の射影の正確かつ明示的な計算に焦点をあてる。すなわち、パラメータの集合の与えられた分割に対して、分割のサブセットの数が小さい限り、合理的なコストで「分割に従って高階微分」と見なされるテンソルを計算することができる。次に,これらのテンソルを次数2,3で活用する最適化手法を提案する。パラメータのサブセット当たりの学習率を出力し,ハイパーパラメータチューニングに使用し,トレーニングされたニューラルネットワークの層間の長距離相互作用を考慮し,同様の手法(例えばK-FAC)では適用されない。コードはhttps://github.com/p-wol/GroupedNewton/で公開されている。

関連論文リスト

A Quasilinear Algorithm for Computing Higher-Order Derivatives of Deep Feed-Forward Neural Networks [0.0]
$n$-TangentProp は指数時間ではなく、準線形の $dn/dxn f(x)$ を計算する。物理インフォームドニューラルネットワークの文脈において,本手法が特に有用であることを示す。
論文参考訳（メタデータ） (2024-12-12T22:57:28Z)
Inverting the Leverage Score Gradient: An Efficient Approximate Newton Method [10.742859956268655]
本稿では,レバレッジスコア勾配から固有モデルパラメータを復元することを目的とする。具体的には、レバレッジスコア勾配の逆転を$g(x)$として精査する。
論文参考訳（メタデータ） (2024-08-21T01:39:42Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。 SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文参考訳（メタデータ） (2024-02-28T10:57:30Z)
Self-concordant Smoothing for Large-Scale Convex Composite Optimization [0.0]
2つの凸関数の和を最小化する自己協和スムージングの概念を導入し、そのうちの1つは滑らかであり、もう1つは非滑らかである。本稿では, 近位ニュートンアルゴリズムであるProx-N-SCOREと近位一般化したガウスニュートンアルゴリズムであるProx-GGN-SCOREの2つのアルゴリズムの収束性を証明する。
論文参考訳（メタデータ） (2023-09-04T19:47:04Z)
Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文参考訳（メタデータ） (2023-06-06T19:02:57Z)
Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文参考訳（メタデータ） (2023-02-06T23:39:13Z)
Randomized Block-Coordinate Optimistic Gradient Algorithms for Root-Finding Problems [8.0153031008486]
大規模設定における非線形方程式の解を近似する2つの新しいアルゴリズムを開発した。我々は,機械学習における顕著な応用を網羅する大規模有限サム包含のクラスに,本手法を適用した。
論文参考訳（メタデータ） (2023-01-08T21:46:27Z)
Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文参考訳（メタデータ） (2022-06-04T15:02:36Z)
Optimal Gradient Sliding and its Application to Distributed Optimization Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文参考訳（メタデータ） (2022-05-30T14:28:02Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
Reducing the Variance of Gaussian Process Hyperparameter Optimization with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。基本的に無視可能なコストで、同時に分散を低減することができる。
論文参考訳（メタデータ） (2021-07-01T06:43:11Z)
SHINE: SHaring the INverse Estimate from the forward pass for bi-level optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文参考訳（メタデータ） (2021-06-01T15:07:34Z)
Implicit differentiation for fast hyperparameter selection in non-smooth convex learning [87.60600646105696]
内部最適化問題が凸であるが非滑らかである場合の一階法を研究する。本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。
論文参考訳（メタデータ） (2021-05-04T17:31:28Z)
DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。また、現在の最先端よりも推論速度を25%以上向上させる。
論文参考訳（メタデータ） (2020-11-26T14:56:57Z)
Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文参考訳（メタデータ） (2020-10-22T00:32:12Z)
Training (Overparametrized) Neural Networks in Near-Linear Time [21.616949485102342]
本稿では,ReparamLUネットワークをトレーニングするための[CGH+1]アルゴリズムの高速化について述べる。我々のアルゴリズムの中心はガウスニュートンを$ell$-reconditionとして再構成することである。
論文参考訳（メタデータ） (2020-06-20T20:26:14Z)
Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文参考訳（メタデータ） (2020-06-12T10:21:40Z)
On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文参考訳（メタデータ） (2020-02-23T22:51:52Z)
A Corrective View of Neural Networks: Representation, Memorization and Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文参考訳（メタデータ） (2020-02-01T20:51:09Z)
Supervised Learning for Non-Sequential Data: A Canonical Polyadic Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文参考訳（メタデータ） (2020-01-27T22:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。