論文の概要: On the validity of kernel approximations for orthogonally-initialized
neural networks
- arxiv url: http://arxiv.org/abs/2104.05878v1
- Date: Tue, 13 Apr 2021 00:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:17:43.929553
- Title: On the validity of kernel approximations for orthogonally-initialized
neural networks
- Title(参考訳): 直交初期化ニューラルネットワークにおけるカーネル近似の有効性について
- Authors: James Martens
- Abstract要約: ガウス分布重みを持つニューラルネットワークのカーネル関数近似結果を,haar分布確率行列を用いた単層ネットワークに拡張する(再スケーリング可能)。
- 参考スコア(独自算出の注目度): 14.23089477635398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note we extend kernel function approximation results for neural
networks with Gaussian-distributed weights to single-layer networks initialized
using Haar-distributed random orthogonal matrices (with possible rescaling).
This is accomplished using recent results from random matrix theory.
- Abstract(参考訳): 本稿では,gaussian-distributed weightsを持つニューラルネットワークのカーネル関数近似結果を,haar-distributed random orthogonal matrices(再スケーリング可能)を用いて初期化した単層ネットワークに拡張する。
これはランダム行列理論の最近の結果を用いて達成される。
関連論文リスト
- Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - An Exact Kernel Equivalence for Finite Classification Models [1.4777718769290527]
我々は、その正確な表現をよく知られたニューラルタンジェントカーネル(NTK)と比較し、NTKに対する近似誤差について議論する。
この正確なカーネルを使って、ニューラルネットワークによる予測について、理論的貢献が有益な洞察を提供することを示す。
論文 参考訳(メタデータ) (2023-08-01T20:22:53Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - Coordinate descent on the orthogonal group for recurrent neural network
training [9.886326127330337]
提案アルゴリズムは, 繰り返し行列の2つの列を回転させ, 与えられた行列による乗算として効率的に実装できる演算であることを示す。
提案アルゴリズムの有効性を示すために, ベンチマーク繰り返しニューラルネットワークトレーニング問題の実験を行った。
論文 参考訳(メタデータ) (2021-07-30T19:27:11Z) - Double-descent curves in neural networks: a new perspective using
Gaussian processes [9.153116600213641]
ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加とともに下降し、最適数のパラメータに達した後に成長する現象を記述している。
本稿では,ニューラルネットワークガウス過程カーネルのスペクトルの幅依存性として,経験的特徴共分散行列のスペクトル分布を特徴付けるために,ランダム行列理論の手法を用いる。
論文 参考訳(メタデータ) (2021-02-14T20:31:49Z) - Generalized Leverage Score Sampling for Neural Networks [82.95180314408205]
レバレッジスコアサンプリング(英: Leverage score sample)は、理論計算機科学に由来する強力な技術である。
本研究では、[Avron, Kapralov, Musco, Musco, Musco, Velingker, Zandieh 17] の結果をより広範なカーネルのクラスに一般化する。
論文 参考訳(メタデータ) (2020-09-21T14:46:01Z) - RicciNets: Curvature-guided Pruning of High-performance Neural Networks
Using Ricci Flow [0.0]
計算グラフをニューラルネットワークにマッピングする前に、Ricci曲率の定義を用いて、重要度の低いエッジを除去する。
1パスあたりの浮動小数点演算数(FLOP)が約35%削減されるが、性能は低下しない。
論文 参考訳(メタデータ) (2020-07-08T15:56:02Z) - Tractable Approximate Gaussian Inference for Bayesian Neural Networks [1.933681537640272]
本稿では,ベイズニューラルネットワークにおける抽出可能な近似ガウス推定(TAGI)を実現するための解析手法を提案する。
この手法はパラメータ数$n$に対して$mathcalO(n)$の計算複雑性を持ち、回帰および分類ベンチマークで実施されたテストは、同じネットワークアーキテクチャにおいて、勾配のバックプロパゲーションに依存する既存のメソッドのパフォーマンスと一致することを確認している。
論文 参考訳(メタデータ) (2020-04-20T13:37:08Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。