論文の概要: Understanding Why Neural Networks Generalize Well Through GSNR of
Parameters
- arxiv url: http://arxiv.org/abs/2001.07384v2
- Date: Mon, 24 Feb 2020 10:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 23:25:02.682368
- Title: Understanding Why Neural Networks Generalize Well Through GSNR of
Parameters
- Title(参考訳): パラメータのGSNRによるニューラルネットワークの一般化
- Authors: Jinlong Liu, Guoqing Jiang, Yunzhi Bai, Ting Chen, Huayan Wang
- Abstract要約: ディープニューラルネットワーク(DNN)の訓練過程におけるパラメータの勾配信号と雑音比(GSNR)について検討する。
トレーニング中にGSNRが大きくなると、より一般化性能が向上することを示す。
- 参考スコア(独自算出の注目度): 11.208337921488207
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As deep neural networks (DNNs) achieve tremendous success across many
application domains, researchers tried to explore in many aspects on why they
generalize well. In this paper, we provide a novel perspective on these issues
using the gradient signal to noise ratio (GSNR) of parameters during training
process of DNNs. The GSNR of a parameter is defined as the ratio between its
gradient's squared mean and variance, over the data distribution. Based on
several approximations, we establish a quantitative relationship between model
parameters' GSNR and the generalization gap. This relationship indicates that
larger GSNR during training process leads to better generalization performance.
Moreover, we show that, different from that of shallow models (e.g. logistic
regression, support vector machines), the gradient descent optimization
dynamics of DNNs naturally produces large GSNR during training, which is
probably the key to DNNs' remarkable generalization ability.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)は多くのアプリケーションドメインで大きな成功を収めているため、研究者たちはなぜうまく一般化するのかについて多くの側面を探ろうとしました。
本稿では,DNNの学習過程におけるパラメータの勾配信号と雑音比(GSNR)を用いて,これらの問題に対する新たな視点を提供する。
パラメータのGSNRは、データ分布に対する勾配の2乗平均と分散の比として定義される。
いくつかの近似に基づいて,モデルパラメータのGSNRと一般化ギャップの定量的関係を確立する。
この関係は、トレーニング中のGSNRが大きいと一般化性能が向上することを示している。
さらに、浅いモデル(例えば、ロジスティック回帰、サポートベクターマシン)とは異なり、DNNの勾配降下最適化ダイナミクスは訓練中に自然に大きなGSNRを生成し、これはおそらくDNNの顕著な一般化能力の鍵となる。
関連論文リスト
- Generalization of Graph Neural Networks is Robust to Model Mismatch [84.01980526069075]
グラフニューラルネットワーク(GNN)は、その一般化能力によってサポートされている様々なタスクにおいて、その効果を実証している。
本稿では,多様体モデルから生成される幾何グラフで動作するGNNについて検討する。
本稿では,そのようなモデルミスマッチの存在下でのGNN一般化の堅牢性を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T16:00:44Z) - Graph Neural Reaction Diffusion Models [14.164952387868341]
本稿では,ニューラルRDシステムに基づく反応GNNの新たなファミリーを提案する。
本稿では,RDGNNの理論的特性とその実装について論じるとともに,最先端手法の競争性能を向上させるか,提供するかを示す。
論文 参考訳(メタデータ) (2024-06-16T09:46:58Z) - Bifurcations and loss jumps in RNN training [7.937801286897863]
本稿では,ReLUベースのRNNにおけるすべての固定点とkサイクルとその存在と安定性領域を検出するアルゴリズムを提案する。
我々のアルゴリズムは正確な結果を提供し、驚くほど優れたスケーリング動作で固定点とサイクルを高次に返却する。
論文 参考訳(メタデータ) (2023-10-26T16:49:44Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Transformed Low-Rank Parameterization Can Help Robust Generalization for
Tensor Neural Networks [32.87980654923361]
Tenor Singular Value Decomposition (t-SVD)はマルチチャネルデータ表現において大きな成功を収めた。
t-SVDがt-NNの学習行動に理論的にどう影響するかはまだ不明である。
本論文は、標準および逆向きに訓練されたt-NNの一般化誤差の上限を導出することにより、この問題に最初に答えるものである。
論文 参考訳(メタデータ) (2023-03-01T03:05:40Z) - Graph Neural Networks are Inherently Good Generalizers: Insights by
Bridging GNNs and MLPs [71.93227401463199]
本稿では、P(ropagational)MLPと呼ばれる中間モデルクラスを導入することにより、GNNの性能向上を本質的な能力に向ける。
PMLPは、トレーニングにおいてはるかに効率的でありながら、GNNと同等(あるいはそれ以上)に動作することを観察する。
論文 参考訳(メタデータ) (2022-12-18T08:17:32Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - A Biased Graph Neural Network Sampler with Near-Optimal Regret [57.70126763759996]
グラフニューラルネットワーク(GNN)は、グラフおよびリレーショナルデータにディープネットワークアーキテクチャを適用する手段として登場した。
本論文では,既存の作業に基づいて,GNN近傍サンプリングをマルチアームバンディット問題として扱う。
そこで本研究では,分散を低減し,不安定かつ非限定的な支払いを回避すべく設計されたバイアスをある程度導入した報酬関数を提案する。
論文 参考訳(メタデータ) (2021-03-01T15:55:58Z) - Advantage of Deep Neural Networks for Estimating Functions with
Singularity on Hypersurfaces [23.21591478556582]
我々は、ディープニューラルネットワーク(DNN)が他の標準手法よりも優れている理由を説明するために、ミニマックスレート分析を開発する。
本研究では,超曲面上の特異点を持つ非滑らか関数のクラスを推定することにより,このギャップを埋めようとしている。
論文 参考訳(メタデータ) (2020-11-04T12:51:14Z) - The Surprising Power of Graph Neural Networks with Random Node
Initialization [54.4101931234922]
グラフニューラルネットワーク(GNN)は、関係データ上での表現学習に有効なモデルである。
標準 GNN はその表現力に制限があり、Weisfeiler-Leman グラフ同型(英語版)の能力以外の区別はできない。
本研究では,ランダムノード(RNI)を用いたGNNの表現力の解析を行う。
我々はこれらのモデルが普遍的であることを証明し、GNNが高次特性の計算に頼らない最初の結果である。
論文 参考訳(メタデータ) (2020-10-02T19:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。