Fugu-MT 論文翻訳(概要): Spatially heterogeneous learning by a deep student machine

論文の概要: Spatially heterogeneous learning by a deep student machine

arxiv url: http://arxiv.org/abs/2302.07419v4
Date: Mon, 10 Jul 2023 05:38:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 18:57:19.547030
Title: Spatially heterogeneous learning by a deep student machine
Title（参考訳）: 深層学習機械による空間的不均一学習
Authors: Hajime Yoshino
Abstract要約: 多数の調整可能なパラメータを持つディープニューラルネットワーク(DNN)は、ほとんどブラックボックスのままである。我々は,教師学生設定と呼ばれる統計力学手法を用いて,NL$パーセプトロンと$c$入力からなるDNNと深度$L$の教師学習について検討した。 N gg c gg 1$ and $M gg 1$ with fixed $alpha=M/c$ using the replica method developed in (H. Yoshino,)
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural networks (DNN) with a huge number of adjustable parameters remain largely black boxes. To shed light on the hidden layers of DNN, we study supervised learning by a DNN of width $N$ and depth $L$ consisting of $NL$ perceptrons with $c$ inputs by a statistical mechanics approach called the teacher-student setting. We consider an ensemble of student machines that exactly reproduce $M$ sets of $N$ dimensional input/output relations provided by a teacher machine. We show that the problem becomes exactly solvable in what we call as 'dense limit': $N \gg c \gg 1$ and $M \gg 1$ with fixed $\alpha=M/c$ using the replica method developed in (H. Yoshino, (2020)). We also study the model numerically performing simple greedy MC simulations. Simulations reveal that learning by the DNN is quite heterogeneous in the network space: configurations of the teacher and the student machines are more correlated within the layers closer to the input/output boundaries while the central region remains much less correlated due to the over-parametrization in qualitative agreement with the theoretical prediction. We evaluate the generalization-error of the DNN with various depth $L$ both theoretically and numerically. Remarkably both the theory and simulation suggest generalization-ability of the student machines, which are only weakly correlated with the teacher in the center, does not vanish even in the deep limit $L \gg 1$ where the system becomes heavily over-parametrized. We also consider the impact of effective dimension $D(\leq N)$ of data by incorporating the hidden manifold model (S. Goldt et. al., (2020)) into our model. The theory implies that the loop corrections to the dense limit become enhanced by either decreasing the width $N$ or decreasing the effective dimension $D$ of the data. Simulation suggests both lead to significant improvements in generalization-ability.
Abstract（参考訳）: 多数の調整可能なパラメータを持つディープニューラルネットワーク(DNN)はほとんどブラックボックスのままである。 DNNの隠蔽層に光を当てるために,教師-学生設定と呼ばれる統計力学手法を用いて,NL$パーセプトロンと$c$入力からなる幅$N$と深さ$L$のDNNによる教師付き学習について検討した。我々は,教師機械が提供した3次元インプット/アウトプット関係の$M$集合を正確に再現する学生機械の集合を考える。 n \gg c \gg 1$ and $m \gg 1$ with fixed $\alpha=m/c$ using the replica method developed in (h)。吉野(2020年)。また,シミュレーションを数値的に行うモデルについても検討した。教師と学生機械の構成は、入力/出力境界に近い層内でより相関しており、一方、中央領域は、理論的予測と定性的な一致による過度なパラメータ化のため、より相関が低い。我々はdnnの一般化誤差を理論的および数値的に様々な深さのl$で評価する。理論とシミュレーションの両方が、中央の教師と弱い相関しか持たない学生機械の一般化可能性を示しているが、システムが過度に過度にパラメータ化されるような深い極限$L \gg 1$でも消えることはない。また,データの有効次元 $d(\leq n)$ の影響を隠れ多様体モデル (s) を用いて検討する。 goldt et所属。 al., (2020) をモデルに組み込んだ。この理論は、密度制限に対するループ補正が、幅を$N$にするか、有効次元を$D$にすることで強化されることを意味する。シミュレーションは両方とも一般化可能性を大幅に改善することを示唆している。

関連論文リスト

Fixed Points of Deep Neural Networks: Emergence, Stability, and Applications [0.0]
我々はディープニューラルネットワーク(DNN)の固定点群の形成と安定性について述べる。本稿では、教師付き、半教師付き、教師なし学習におけるそのようなネットワークの応用例を示す。
論文参考訳（メタデータ） (2025-01-07T23:23:26Z)
Learning Networks from Wide-Sense Stationary Stochastic Processes [7.59499154221528]
ここでの重要な推論問題は、ノード出力(ポテンシャル)からエッジ接続を学習することである。我々はWhittleの最大可能性推定器(MLE)を用いて時間相関サンプルから$Last$のサポートを学習する。 MLE問題は厳密な凸であり、ユニークな解であることを示す。
論文参考訳（メタデータ） (2024-12-04T23:14:00Z)
Effective Minkowski Dimension of Deep Nonparametric Regression: Function Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文参考訳（メタデータ） (2023-06-26T17:13:31Z)
The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文参考訳（メタデータ） (2022-12-23T04:48:04Z)
Neural Networks Efficiently Learn Low-Dimensional Representations with SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文参考訳（メタデータ） (2022-09-29T15:29:10Z)
Understanding Deep Neural Function Approximation in Reinforcement Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文参考訳（メタデータ） (2022-09-15T15:42:47Z)
Feature Learning in $L_{2}$-regularized DNNs: Attraction/Repulsion and Sparsity [9.077741848403791]
パラメータの損失は、トレーニングセットの層単位でのアクティベーション$Z_ell$の損失に再計算可能であることを示す。この改革は、機能学習の背景にあるダイナミクスを明らかにします。
論文参考訳（メタデータ） (2022-05-31T14:10:15Z)
Lessons from $O(N)$ models in one dimension [0.0]
1つの時空次元(通常の量子力学)における$O(N)$モデルに関連する様々なトピックが考慮される。その焦点は、より単純な文脈で量子場理論の手法を教育的に提示することである。
論文参考訳（メタデータ） (2021-09-14T11:36:30Z)
Locality defeats the curse of dimensionality in convolutional teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文参考訳（メタデータ） (2021-06-16T08:27:31Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Hardness of Learning Halfspaces with Massart Noise [56.98280399449707]
我々は、マッサート(有界)ノイズの存在下でPAC学習のハーフスペースの複雑さを研究します。情報理論上最適なエラーとSQアルゴリズムで達成できる最高のエラーとの間に指数関数的なギャップがあることを示した。
論文参考訳（メタデータ） (2020-12-17T16:43:11Z)
Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文参考訳（メタデータ） (2020-03-30T12:03:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。