Fugu-MT 論文翻訳(概要): Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives

論文の概要: Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives

arxiv url: http://arxiv.org/abs/2312.03885v2
Date: Sat, 3 Feb 2024 09:00:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 03:41:50.858016
Title: Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives
Title（参考訳）: 高次微分の要約によるニューラルネットへのニュートン法の適用
Authors: Pierre Wolinski
Abstract要約: 関数 $boldsymboltheta$ に適用した勾配に基づく最適化法を考える。このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider a gradient-based optimization method applied to a function $\mathcal{L}$ of a vector of variables $\boldsymbol{\theta}$, in the case where $\boldsymbol{\theta}$ is represented as a tuple of tensors $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$. This framework encompasses many common use-cases, such as training neural networks by gradient descent. First, we propose a computationally inexpensive technique providing higher-order information on $\mathcal{L}$, especially about the interactions between the tensors $\mathbf{T}_s$, based on automatic differentiation and computational tricks. Second, we use this technique at order 2 to build a second-order optimization method which is suitable, among other things, for training deep neural networks of various architectures. This second-order method leverages the partition structure of $\boldsymbol{\theta}$ into tensors $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$, in such a way that it requires neither the computation of the Hessian of $\mathcal{L}$ according to $\boldsymbol{\theta}$, nor any approximation of it. The key part consists in computing a smaller matrix interpretable as a "Hessian according to the partition", which can be computed exactly and efficiently. In contrast to many existing practical second-order methods used in neural networks, which perform a diagonal or block-diagonal approximation of the Hessian or its inverse, the method we propose does not neglect interactions between layers. Finally, we can tune the coarseness of the partition to recover well-known optimization methods: the coarsest case corresponds to Cauchy's steepest descent method, the finest case corresponds to the usual Newton's method.
Abstract（参考訳）: 変数のベクトルの関数 $\mathcal{L}$ に適用される勾配に基づく最適化法を、$\boldsymbol{\theta}$ がテンソル $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$ のタプルとして表される場合に考える。このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。まず, テンソル$\mathbf{T}_s$ 上の高次情報, 特にテンソル $\mathbf{T}_s$ 間の相互作用について, 自動微分と計算手法に基づいて高次情報を提供する計算コスト手法を提案する。第2に,この手法を順序2で使用し,様々なアーキテクチャの深層ニューラルネットワークの学習に適した2次最適化手法を構築した。この二階法では、$\boldsymbol{\theta}$ の分割構造をテンソル $(\mathbf{t}_1, \cdots, \mathbf{t}_s)$ に利用し、$\boldsymbol{\theta}$ に従えば $\mathcal{l}$ のヘッセンの計算も必要としない。鍵となる部分は、より小さな行列を「分割に従ってヘッセン」と解釈し、正確に効率的に計算できる計算である。ヘシアンあるいはその逆の対角あるいはブロック対角近似を行うニューラルネットワークで用いられる多くの既存の実用的二階法とは対照的に、提案手法は層間の相互作用を無視しない。最後に、分割の粗さを調整してよく知られた最適化手法を復元することができる: 粗いケースはコーシーの最も急降下法に対応し、最も細かいケースは通常のニュートン法に対応している。

関連論文リスト

A Scalable Factorization Approach for High-Order Structured Tensor Recovery [30.876260188209105]
分解は、非常に小さな次元の約$N$因子を使って$N$のテンソルを表すが、パラメータの数を著しく減少させる。これらの問題に対する計算的メモリ効率のアプローチは、局所アルゴリズムを用いた因子を直接的に最適化することである。様々なテンソル分解問題を解くための因子分解の統一的枠組みを提案する。
論文参考訳（メタデータ） (2025-06-19T05:07:07Z)
A Quasilinear Algorithm for Computing Higher-Order Derivatives of Deep Feed-Forward Neural Networks [0.0]
$n$-TangentProp は指数時間ではなく、準線形の $dn/dxn f(x)$ を計算する。物理インフォームドニューラルネットワークの文脈において,本手法が特に有用であることを示す。
論文参考訳（メタデータ） (2024-12-12T22:57:28Z)
Geometric Algebra Planes: Convex Implicit Neural Volumes [70.12234371845445]
GA-Planes はスパース低ランク係数と低分解能行列と等価であることを示す。また,GA-Planeは既存の表現にも適用可能であることを示す。
論文参考訳（メタデータ） (2024-11-20T18:21:58Z)
Inverting the Leverage Score Gradient: An Efficient Approximate Newton Method [10.742859956268655]
本稿では,レバレッジスコア勾配から固有モデルパラメータを復元することを目的とする。具体的には、レバレッジスコア勾配の逆転を$g(x)$として精査する。
論文参考訳（メタデータ） (2024-08-21T01:39:42Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。 SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文参考訳（メタデータ） (2024-02-28T10:57:30Z)
Posterior Contraction Rates for Mat\'ern Gaussian Processes on Riemannian Manifolds [51.68005047958965]
我々は,本質的なガウス過程が実際により優れた性能を発揮することを示す。我々の研究は、データ効率の異なるレベルを区別するために、よりきめ細かい分析が必要であることを示している。
論文参考訳（メタデータ） (2023-09-19T20:30:58Z)
Self-concordant Smoothing for Large-Scale Convex Composite Optimization [0.0]
2つの凸関数の和を最小化する自己協和スムージングの概念を導入し、そのうちの1つは滑らかであり、もう1つは非滑らかである。本稿では, 近位ニュートンアルゴリズムであるProx-N-SCOREと近位一般化したガウスニュートンアルゴリズムであるProx-GGN-SCOREの2つのアルゴリズムの収束性を証明する。
論文参考訳（メタデータ） (2023-09-04T19:47:04Z)
Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文参考訳（メタデータ） (2023-06-06T19:02:57Z)
Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文参考訳（メタデータ） (2023-02-06T23:39:13Z)
Randomized Block-Coordinate Optimistic Gradient Algorithms for Root-Finding Problems [8.0153031008486]
大規模設定における非線形方程式の解を近似する2つの新しいアルゴリズムを開発した。我々は,機械学習における顕著な応用を網羅する大規模有限サム包含のクラスに,本手法を適用した。
論文参考訳（メタデータ） (2023-01-08T21:46:27Z)
Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文参考訳（メタデータ） (2022-06-04T15:02:36Z)
Optimal Gradient Sliding and its Application to Distributed Optimization Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文参考訳（メタデータ） (2022-05-30T14:28:02Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
Gaussian Processes and Statistical Decision-making in Non-Euclidean Spaces [96.53463532832939]
我々はガウス過程の適用性を高める技術を開発した。この観点から構築した効率的な近似を幅広く導入する。非ユークリッド空間上のガウス過程モデルの集合を開発する。
論文参考訳（メタデータ） (2022-02-22T01:42:57Z)
2D+3D facial expression recognition via embedded tensor manifold regularization [16.98176664818354]
2D+3次元表情認識(FERETMR)のための埋め込みテンソル多様体正規化による新しい手法を提案する。定常点の観点から一階最適条件を確立し、収束解析によるブロック座標降下(BCD)アルゴリズムを設計する。 BU-3DFEデータベースとBosphorusデータベースの数値計算結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-01-29T06:11:00Z)
Reducing the Variance of Gaussian Process Hyperparameter Optimization with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。基本的に無視可能なコストで、同時に分散を低減することができる。
論文参考訳（メタデータ） (2021-07-01T06:43:11Z)
SHINE: SHaring the INverse Estimate from the forward pass for bi-level optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文参考訳（メタデータ） (2021-06-01T15:07:34Z)
Implicit differentiation for fast hyperparameter selection in non-smooth convex learning [87.60600646105696]
内部最適化問題が凸であるが非滑らかである場合の一階法を研究する。本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。
論文参考訳（メタデータ） (2021-05-04T17:31:28Z)
DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。また、現在の最先端よりも推論速度を25%以上向上させる。
論文参考訳（メタデータ） (2020-11-26T14:56:57Z)
Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文参考訳（メタデータ） (2020-10-22T00:32:12Z)
Second-order Neural Network Training Using Complex-step Directional Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文参考訳（メタデータ） (2020-09-15T13:46:57Z)
Riemannian optimization of isometric tensor networks [0.0]
等長線のテンソルネットワークを最適化するために、勾配に基づく最適化手法が、例えば1次元量子ハミルトニアンの基底状態を表すためにどのように用いられるかを示す。これらの手法を無限MPSとMERAの文脈に適用し、これまでに知られていた最適化手法よりも優れたベンチマーク結果を示す。
論文参考訳（メタデータ） (2020-07-07T17:19:05Z)
Efficient Learning of Generative Models via Finite-Difference Score Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文参考訳（メタデータ） (2020-07-07T10:05:01Z)
Training (Overparametrized) Neural Networks in Near-Linear Time [21.616949485102342]
本稿では,ReparamLUネットワークをトレーニングするための[CGH+1]アルゴリズムの高速化について述べる。我々のアルゴリズムの中心はガウスニュートンを$ell$-reconditionとして再構成することである。
論文参考訳（メタデータ） (2020-06-20T20:26:14Z)
Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文参考訳（メタデータ） (2020-06-12T10:21:40Z)
On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文参考訳（メタデータ） (2020-02-23T22:51:52Z)
A Corrective View of Neural Networks: Representation, Memorization and Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文参考訳（メタデータ） (2020-02-01T20:51:09Z)
Supervised Learning for Non-Sequential Data: A Canonical Polyadic Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文参考訳（メタデータ） (2020-01-27T22:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。