論文の概要: Behind the Scenes of Gradient Descent: A Trajectory Analysis via Basis
Function Decomposition
- arxiv url: http://arxiv.org/abs/2210.00346v1
- Date: Sat, 1 Oct 2022 19:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:17:35.187993
- Title: Behind the Scenes of Gradient Descent: A Trajectory Analysis via Basis
Function Decomposition
- Title(参考訳): グラディエントDescentの背景:基底関数分解による軌道解析
- Authors: Jianhao Ma, Lingjun Gun, Salar Fattahi
- Abstract要約: 本研究は,新しい基底関数分解法を用いて勾配型アルゴリズムの解軌跡を解析する。
勾配に基づくアルゴリズムの解軌跡は学習課題によって異なるが、適切な正規関数ベースに投影された場合、ほとんど単調に振る舞う。
- 参考スコア(独自算出の注目度): 4.01776052820812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work analyzes the solution trajectory of gradient-based algorithms via a
novel basis function decomposition. We show that, although solution
trajectories of gradient-based algorithms may vary depending on the learning
task, they behave almost monotonically when projected onto an appropriate
orthonormal function basis. Such projection gives rise to a basis function
decomposition of the solution trajectory. Theoretically, we use our proposed
basis function decomposition to establish the convergence of gradient descent
(GD) on several representative learning tasks. In particular, we improve the
convergence of GD on symmetric matrix factorization and provide a completely
new convergence result for the orthogonal symmetric tensor decomposition.
Empirically, we illustrate the promise of our proposed framework on realistic
deep neural networks (DNNs) across different architectures, gradient-based
solvers, and datasets. Our key finding is that gradient-based algorithms
monotonically learn the coefficients of a particular orthonormal function basis
of DNNs defined as the eigenvectors of the conjugate kernel after training. Our
code is available at https://github.com/jianhaoma/function-basis-decomposition.
- Abstract(参考訳): この研究は、新しい基底関数分解による勾配アルゴリズムの解軌道を解析する。
グラデーションに基づくアルゴリズムの解の軌跡は学習タスクによって異なるが、適切な正規直交関数基底に投影された場合、ほとんど単調に振る舞う。
このような射影は、解軌道の基底関数分解を引き起こす。
理論的には,提案する基底関数分解を用いて,いくつかの代表的な学習タスクにおける勾配降下(gd)の収束性を確立する。
特に、対称行列因子分解におけるgdの収束を改善し、直交対称テンソル分解に対して完全に新しい収束結果を与える。
経験的に、我々は、異なるアーキテクチャ、勾配ベースの解法、データセットをまたいだ、現実的なディープニューラルネットワーク(dnn)に関する提案フレームワークの約束を示す。
我々の重要な発見は、勾配に基づくアルゴリズムが訓練後に共役核の固有ベクトルとして定義されるDNNの特定の正規正規関数基底の係数を単調に学習することである。
私たちのコードはhttps://github.com/jianhaoma/function-basis-decompositionで利用可能です。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - A Globally Convergent Algorithm for Neural Network Parameter
Optimization Based on Difference-of-Convex Functions [29.58728073957055]
隠れ層ネットワークのパラメータを最適化するアルゴリズムを提案する。
具体的には,ブロックワイズ(DC-of-the-art)差分関数を導出する。
論文 参考訳(メタデータ) (2024-01-15T19:53:35Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - NeuralEF: Deconstructing Kernels by Deep Neural Networks [47.54733625351363]
従来のNystr"om式に基づく非パラメトリックなソリューションはスケーラビリティの問題に悩まされる。
最近の研究はパラメトリックなアプローチ、すなわち固有関数を近似するためにニューラルネットワークを訓練している。
教師なしおよび教師なしの学習問題の空間に一般化する新たな目的関数を用いて,これらの問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-04-30T05:31:07Z) - q-RBFNN:A Quantum Calculus-based RBF Neural Network [31.14412266444568]
放射状基底関数ニューラルネットワーク(RBFNN)に対する勾配降下に基づく学習手法を提案する。
提案手法は、ジャクソン微分(Jackson derivative)とも呼ばれるq勾配に基づく。
提案した$q$-RBFNNは最小二乗アルゴリズムの文脈における収束性能について解析する。
論文 参考訳(メタデータ) (2021-06-02T08:27:12Z) - A proof of convergence for gradient descent in the training of
artificial neural networks for constant target functions [3.4792548480344254]
勾配降下法のリスク関数は, 実際に0に収束することを示す。
この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。
論文 参考訳(メタデータ) (2021-02-19T13:33:03Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。