論文の概要: Initializing ReLU networks in an expressive subspace of weights
- arxiv url: http://arxiv.org/abs/2103.12499v1
- Date: Tue, 23 Mar 2021 12:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:40:32.279330
- Title: Initializing ReLU networks in an expressive subspace of weights
- Title(参考訳): 重みの表現的部分空間におけるreluネットワークの初期化
- Authors: Dayal Singh and Sreejith G J
- Abstract要約: 相関重み付きReLUネットワークを伝播する2つの信号間の相関関係の進化を解析する。
反相関重みを持つReLUネットワークは、この運命を回避でき、相関関係がユニタリ以下に飽和するカオス相を持つことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using a mean-field theory of signal propagation, we analyze the evolution of
correlations between two signals propagating through a ReLU network with
correlated weights. Signals become highly correlated in deep ReLU networks with
uncorrelated weights. We show that ReLU networks with anti-correlated weights
can avoid this fate and have a chaotic phase where the correlations saturate
below unity. Consistent with this analysis, we find that networks initialized
with anti-correlated weights can train faster (in a teacher-student setting) by
taking advantage of the increased expressivity in the chaotic phase. Combining
this with a previously proposed strategy of using an asymmetric initialization
to reduce dead ReLU probability, we propose an initialization scheme that
allows faster training and learning than the best-known methods.
- Abstract(参考訳): 信号伝搬の平均場理論を用いて、相関重み付きReLUネットワークを介して伝播する2つの信号間の相関の進化を解析する。
信号は非相関重みを持つ深いReLUネットワークにおいて高い相関関係を持つ。
反相関重みを持つReLUネットワークは、この運命を回避でき、相関関係がユニタリ以下に飽和するカオス相を持つことを示す。
この分析と一致して,反相関重み付きネットワークは,カオス相における表現力の増大を生かして,より速く(教師と学生の環境で)訓練できることがわかった。
これを非対称初期化を用いてデッドルル確率を減少させる戦略と組み合わせることで、最もよく知られた方法よりも高速なトレーニングと学習を可能にする初期化スキームを提案する。
関連論文リスト
- Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Convergence Analysis and Implicit Regularization of Feedback Alignment
for Deep Linear Networks [27.614609336582568]
ニューラルネットワークのトレーニングのためのバックプロパゲーションの効率的な代替手段であるフィードバックアライメント(FA)アルゴリズムを理論的に解析する。
我々は、連続力学と離散力学の両方に対して、ディープ線形ネットワークのレートで収束保証を提供する。
論文 参考訳(メタデータ) (2021-10-20T22:57:03Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z) - On the Principle of Least Symmetry Breaking in Shallow ReLU Models [13.760721677322072]
対象の重みに対する対称性の中期的損失は、より広範囲な設定に適用可能であることを示す。
これを受けて、我々はこの仮説を非等方性非積分布、滑らかな活性化関数、いくつかの層を持つネットワークの異なるクラスに相関させる一連の実験を行った。
論文 参考訳(メタデータ) (2019-12-26T22:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。