論文の概要: Principles for Initialization and Architecture Selection in Graph Neural
Networks with ReLU Activations
- arxiv url: http://arxiv.org/abs/2306.11668v1
- Date: Tue, 20 Jun 2023 16:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 13:37:37.745336
- Title: Principles for Initialization and Architecture Selection in Graph Neural
Networks with ReLU Activations
- Title(参考訳): reluアクティベーションを持つグラフニューラルネットワークにおける初期化とアーキテクチャ選択の原則
- Authors: Gage DeZoort, Boris Hanin
- Abstract要約: ReLUを活性化した有限幅グラフニューラルネットワーク(GNN)におけるアーキテクチャ選択の3つの原理を示す。
まず、よく知られた He-initialization の ReLU GNN への一意的な一般化を理論的に導出する。
第2に、有限幅バニラReLU GNNにおいて、固定アグリゲーション演算子を用いる場合、オーバースムーシングが大深度では避けられないことを証明する。
- 参考スコア(独自算出の注目度): 17.51364577113718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article derives and validates three principles for initialization and
architecture selection in finite width graph neural networks (GNNs) with ReLU
activations. First, we theoretically derive what is essentially the unique
generalization to ReLU GNNs of the well-known He-initialization. Our
initialization scheme guarantees that the average scale of network outputs and
gradients remains order one at initialization. Second, we prove in finite width
vanilla ReLU GNNs that oversmoothing is unavoidable at large depth when using
fixed aggregation operator, regardless of initialization. We then prove that
using residual aggregation operators, obtained by interpolating a fixed
aggregation operator with the identity, provably alleviates oversmoothing at
initialization. Finally, we show that the common practice of using residual
connections with a fixup-type initialization provably avoids correlation
collapse in final layer features at initialization. Through ablation studies we
find that using the correct initialization, residual aggregation operators, and
residual connections in the forward pass significantly and reliably speeds up
early training dynamics in deep ReLU GNNs on a variety of tasks.
- Abstract(参考訳): 本稿では、ReLU活性化を伴う有限幅グラフニューラルネットワーク(GNN)の初期化とアーキテクチャ選択の3つの原則を導出し、検証する。
まず、よく知られたHe-initializationのReLU GNNへの一意の一般化を理論的に導出する。
我々の初期化スキームは、初期化時にネットワーク出力と勾配の平均スケールが順に残ることを保証している。
第2に、有限幅のバニラReLU GNNにおいて、初期化にかかわらず、固定集約演算子を使用する場合、過密は大きな深さでは避けられないことを示す。
そして、固定集約演算子を同一性で補間することで得られる残余集約演算子を用いることで、初期化時の過度なスムース化を確実に軽減できることを証明した。
最後に,固定型初期化で残差接続を使用する場合,初期化時に最終層特徴の相関崩壊を回避できることを示す。
アブレーション研究により, フォワードにおける初期化, 残余集約演算子, 残余接続を用いることで, 様々なタスクにおける深部ReLU GNNの早期トレーニングのダイナミクスを著しく, 確実に高速化できることがわかった。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Dynamical Isometry for Residual Networks [8.21292084298669]
RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。
実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
論文 参考訳(メタデータ) (2022-10-05T17:33:23Z) - AutoInit: Automatic Initialization via Jacobian Tuning [7.9603223299524535]
我々は、フィードフォワードDNNに対して、優れた初期化を自動的に見つけられる新しい安価なアルゴリズムを導入する。
完全連結ネットワークに対するReLUを用いたアルゴリズムの動的解法と収束条件の導出について述べる。
提案手法をResMLPおよびVGGアーキテクチャに適用し,本手法で検出したワンショット初期化によって視覚タスクの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-27T18:14:51Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Fractional moment-preserving initialization schemes for training deep
neural networks [1.14219428942199]
ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。
本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。
数値実験により,本手法が訓練および試験性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-05-25T01:10:01Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。