論文の概要: Multi-layer Perceptron Trainability Explained via Variability
- arxiv url: http://arxiv.org/abs/2105.08911v3
- Date: Thu, 18 May 2023 10:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 21:21:30.491541
- Title: Multi-layer Perceptron Trainability Explained via Variability
- Title(参考訳): 可変性を利用した多層パーセプトロントレーサビリティ
- Authors: Yueyao Yu and Yin Zhang
- Abstract要約: ニューラルネットワークの可変性は,データ空間におけるランドスケープパターンの豊かさを表す。
変動性はアクティベーションの数と正の相関を示し、「勾配への崩壊」と呼ばれる現象と負の相関を示す。
小さなスタイリングされたモデル問題の実験では、可変性は実際に正確にトレーニング可能性を予測することができる。
- 参考スコア(独自算出の注目度): 4.6108086988674835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the tremendous successes of deep neural networks (DNNs) in various
applications, many fundamental aspects of deep learning remain incompletely
understood, including DNN trainability. In a trainability study, one aims to
discern what makes one DNN model easier to train than another under comparable
conditions. In particular, our study focuses on multi-layer perceptron (MLP)
models equipped with the same number of parameters. We introduce a new notion
called variability to help explain the benefits of deep learning and the
difficulties in training very deep MLPs. Simply put, variability of a neural
network represents the richness of landscape patterns in the data space with
respect to well-scaled random weights. We empirically show that variability is
positively correlated to the number of activations and negatively correlated to
a phenomenon called "Collapse to Constant", which is related but not identical
to the well-known vanishing gradient phenomenon. Experiments on a small
stylized model problem confirm that variability can indeed accurately predict
MLP trainability. In addition, we demonstrate that, as an activation function
in MLP models, the absolute value function can offer better variability than
the popular ReLU function can.
- Abstract(参考訳): 様々なアプリケーションでディープニューラルネットワーク(DNN)が驚くほど成功したにもかかわらず、ディープラーニングの基本的側面は、DNNのトレーニング容易性など不完全なままである。
トレーサビリティスタディでは、比較条件下で、あるdnnモデルを訓練しやすくする要因を識別することを目的としている。
特に,同じ数のパラメータを持つ多層パーセプトロン(MLP)モデルについて検討した。
深層学習の利点と深層学習の難しさを説明するために,可変性という新しい概念を導入する。
簡単に言えば、ニューラルネットワークの可変性は、よくスケールされたランダムな重みに関するデータ空間におけるランドスケープパターンの豊かさを表している。
変動性はアクティベーションの数と正の相関を示し、また「定数の崩壊」と呼ばれる現象と負の相関を示すが、これはよく知られた消滅する勾配現象とは一致しない。
小さなスタイリッシュモデル問題に関する実験により、変動性は正確にmlpトレーサビリティを予測できることが確認された。
さらに, MLPモデルにおけるアクティベーション関数として, 絶対値関数は, 一般的なReLU関数よりも可変性がよいことを示す。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - A Differentiable Partially Observable Generalized Linear Model with
Forward-Backward Message Passing [2.600709013150986]
既存の作業で用いられるスコア関数勾配推定器よりも優れたパスワイズ勾配推定器を実現できる新しい微分可能なPOGLMを提案する。
我々の新しい手法はより解釈可能なパラメータをもたらし、神経科学におけるその重要性を裏付ける。
論文 参考訳(メタデータ) (2024-02-02T09:34:49Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Improving the Robustness of Neural Multiplication Units with Reversible
Stochasticity [2.4278445972594525]
多層パーセプトロンは、ある種の単純な算術的なタスクを学ぶのに苦労する。
特殊神経NMU(sNMU)は可逆性を適用するために提案され、そのようなオプティマの回避を奨励する。
論文 参考訳(メタデータ) (2022-11-10T14:56:37Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Characterizing possible failure modes in physics-informed neural
networks [55.83255669840384]
科学機械学習における最近の研究は、いわゆる物理情報ニューラルネットワーク(PINN)モデルを開発した。
既存のPINN方法論は比較的自明な問題に対して優れたモデルを学ぶことができるが、単純なPDEであっても、関連する物理現象を学習するのに失敗する可能性があることを実証する。
これらの障害モードは,NNアーキテクチャの表現力の欠如によるものではなく,PINNのセットアップによって損失状況の最適化が極めて困難であることを示す。
論文 参考訳(メタデータ) (2021-09-02T16:06:45Z) - Enabling Continual Learning with Differentiable Hebbian Plasticity [18.12749708143404]
連続学習は、獲得した知識を保護しながら、新しいタスクや知識を順次学習する問題である。
破滅的な忘れ物は、そのような学習プロセスを実行するニューラルネットワークにとって、大きな課題となる。
微分可能なヘビアン塑性からなるヘビアンコンソリデーションモデルを提案する。
論文 参考訳(メタデータ) (2020-06-30T06:42:19Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z) - Neural Additive Models: Interpretable Machine Learning with Neural Nets [77.66871378302774]
ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて優れたパフォーマンスを達成した強力なブラックボックス予測器である。
本稿では、DNNの表現性と一般化した加法モデルの固有知性を組み合わせたニューラル付加モデル(NAM)を提案する。
NAMは、ニューラルネットワークの線形結合を学び、それぞれが単一の入力機能に付随する。
論文 参考訳(メタデータ) (2020-04-29T01:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。