論文の概要: Deep Gated Networks: A framework to understand training and
generalisation in deep learning
- arxiv url: http://arxiv.org/abs/2002.03996v2
- Date: Mon, 2 Mar 2020 17:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:23:03.805848
- Title: Deep Gated Networks: A framework to understand training and
generalisation in deep learning
- Title(参考訳): Deep Gated Networks:ディープラーニングのトレーニングと一般化を理解するためのフレームワーク
- Authors: Chandrashekar Lakshminarayanan and Amit Vikram Singh
- Abstract要約: 我々は、ReLUアクティベーションを伴うDNNに関する洞察を得るために、ディープゲートネットワーク(DGN)をフレームワークとして利用する。
私たちの理論は、2つの疑問に光を当てている。すなわち、ある点まで深度を増すことがトレーニングの助けになる理由と、ある点を超えて深度を増すことがトレーニングを損なう理由である。
- 参考スコア(独自算出の注目度): 3.6954802719347426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the role of (stochastic) gradient descent (SGD) in the training
and generalisation of deep neural networks (DNNs) with ReLU activation has been
the object study in the recent past. In this paper, we make use of deep gated
networks (DGNs) as a framework to obtain insights about DNNs with ReLU
activation. In DGNs, a single neuronal unit has two components namely the
pre-activation input (equal to the inner product the weights of the layer and
the previous layer outputs), and a gating value which belongs to $[0,1]$ and
the output of the neuronal unit is equal to the multiplication of
pre-activation input and the gating value. The standard DNN with ReLU
activation, is a special case of the DGNs, wherein the gating value is $1/0$
based on whether or not the pre-activation input is positive or negative. We
theoretically analyse and experiment with several variants of DGNs, each
variant suited to understand a particular aspect of either training or
generalisation in DNNs with ReLU activation. Our theory throws light on two
questions namely i) why increasing depth till a point helps in training and ii)
why increasing depth beyond a point hurts training? We also present
experimental evidence to show that gate adaptation, i.e., the change of gating
value through the course of training is key for generalisation.
- Abstract(参考訳): ReLU活性化によるディープニューラルネットワーク(DNN)の訓練と一般化における(確率的)勾配降下(SGD)の役割を理解することが、近年のオブジェクト研究である。
本稿では,ReLUアクティベーションを伴うDNNに関する洞察を得るために,ディープゲートネットワーク(DGN)をフレームワークとして利用する。
DGNでは、単一ニューロンユニットは、プレアクティベーション入力(内積に等しく、層と前層の重みが出力する)と、[0,1]$に属するゲーティング値と、前アクティベーション入力とゲーティング値の乗算に等しい2つの成分を有する。
ReLUアクティベーションを持つ標準DNNはDGNの特別な場合であり、前アクティベーション入力が正か負かに基づいてゲーティング値が1/0$である。
我々はDGNのいくつかの変種を理論的に分析・実験し、それぞれの変種はReLUアクティベーションを持つDNNにおける訓練または一般化の特定の側面を理解するのに適している。
私たちの理論は2つの疑問に光を当てる
一 訓練の助けになるところまで深度を増すこと
二 ポイントを超えて深度を増すことが 訓練を損なう理由
また,ゲート適応,すなわち,学習過程におけるゲーティング値の変化が一般化の鍵となることを示す実験的な証拠も提示する。
関連論文リスト
- Deep Networks Always Grok and Here is Why [15.327649172531606]
グローキング(英: Grokking)または遅延一般化(英: delay generalization)とは、ディープニューラルネットワーク(DNN)における一般化が、ほぼゼロのトレーニングエラーを達成してから長く経過する現象である。
我々は、グルーキングが実際ずっと広く、幅広い実践的な設定で実現されていることを実証した。
論文 参考訳(メタデータ) (2024-02-23T18:59:31Z) - Label Deconvolution for Node Representation Learning on Large-scale
Attributed Graphs against Learning Bias [75.44877675117749]
本稿では,GNNの逆写像に対する新しい,スケーラブルな近似による学習バイアスを軽減するために,ラベルの効率的な正規化手法,すなわちラベルのデコンボリューション(LD)を提案する。
実験では、LDはOpen Graphデータセットのベンチマークで最先端のメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2023-09-26T13:09:43Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Explicitising The Implicit Intrepretability of Deep Neural Networks Via
Duality [5.672223170618133]
Lakshminarayanan氏とSingh氏の最近の研究は、修正線形ユニット(ReLU)を備えた完全連結ディープニューラルネットワーク(DNN)のための二重ビューを提供する。
論文 参考訳(メタデータ) (2022-03-01T03:08:21Z) - Disentangling deep neural networks with rectified linear units using
duality [4.683806391173103]
線形整流ユニット(ReLU)を用いたディープニューラルネットワーク(DNN)の解釈可能な新しい実装を提案する。
我々は、大域プールとスキップ接続との畳み込みが、それぞれ回転不変性とアンサンブル構造をニューラルパスカーネル(NPK)にもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-06T16:51:59Z) - Analyzing Finite Neural Networks: Can We Trust Neural Tangent Kernel
Theory? [2.0711789781518752]
ニューラルカーネル(NTK)理論は、勾配勾配下での無限大深層ニューラルネットワーク(DNN)の力学の研究に広く用いられている。
NTK理論が実用的に完全に連結されたReLUおよびシグモイドDNNに対して有効である場合の実証的研究を行う。
特にNTK理論は、十分に深いネットワークの挙動を説明しておらず、それらの勾配がネットワークの層を伝搬するにつれて爆発する。
論文 参考訳(メタデータ) (2020-12-08T15:19:45Z) - Optimization and Generalization Analysis of Transduction through
Gradient Boosting and Application to Multi-scale Graph Neural Networks [60.22494363676747]
現在のグラフニューラルネットワーク(GNN)は、オーバースムーシング(over-smoothing)と呼ばれる問題のため、自分自身を深くするのは難しいことが知られている。
マルチスケールGNNは、オーバースムーシング問題を緩和するための有望なアプローチである。
マルチスケールGNNを含むトランスダクティブ学習アルゴリズムの最適化と一般化を保証する。
論文 参考訳(メタデータ) (2020-06-15T17:06:17Z) - Neural Path Features and Neural Path Kernel : Understanding the role of
gates in deep learning [3.6954802719347426]
本稿では,ディープラーニングにおけるアクティブサブネットワークの役割を解析的に特徴付ける。
入力のゲートのオン/オフ状態を新しい「神経経路特徴」(NPF)にエンコードする。
ネットワークの出力はNPFとNPVの内積であることを示す。
論文 参考訳(メタデータ) (2020-06-11T19:36:40Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。