論文の概要: Should Under-parameterized Student Networks Copy or Average Teacher
Weights?
- arxiv url: http://arxiv.org/abs/2311.01644v2
- Date: Tue, 16 Jan 2024 00:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 21:34:57.723016
- Title: Should Under-parameterized Student Networks Copy or Average Teacher
Weights?
- Title(参考訳): 学生ネットワークをコピーするか, 平均教師の体重を測るべきか?
- Authors: Berfin \c{S}im\c{s}ek, Amire Bendjeddou, Wulfram Gerstner, Johanni
Brea
- Abstract要約: 例えば、$f*$自体が1つの隠れた層と$k$のニューロンを持つニューラルネットワークである場合を考える。
学生のニューロンは教師より少ないため、各学生のニューロンが教師のニューロンの1つをコピーすべきか、むしろ教師のニューロンのグループを平均すべきかは不明である。
フロー勾配が最適コピー平均臨界点に収束するerfアクティベーション関数や、各学生ニューロンが異なる教師ニューロンを概略コピーする他の点に収束するerfアクティベーション関数を求める。
- 参考スコア(独自算出の注目度): 7.777410338143785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Any continuous function $f^*$ can be approximated arbitrarily well by a
neural network with sufficiently many neurons $k$. We consider the case when
$f^*$ itself is a neural network with one hidden layer and $k$ neurons.
Approximating $f^*$ with a neural network with $n< k$ neurons can thus be seen
as fitting an under-parameterized "student" network with $n$ neurons to a
"teacher" network with $k$ neurons. As the student has fewer neurons than the
teacher, it is unclear, whether each of the $n$ student neurons should copy one
of the teacher neurons or rather average a group of teacher neurons. For
shallow neural networks with erf activation function and for the standard
Gaussian input distribution, we prove that "copy-average" configurations are
critical points if the teacher's incoming vectors are orthonormal and its
outgoing weights are unitary. Moreover, the optimum among such configurations
is reached when $n-1$ student neurons each copy one teacher neuron and the
$n$-th student neuron averages the remaining $k-n+1$ teacher neurons. For the
student network with $n=1$ neuron, we provide additionally a closed-form
solution of the non-trivial critical point(s) for commonly used activation
functions through solving an equivalent constrained optimization problem.
Empirically, we find for the erf activation function that gradient flow
converges either to the optimal copy-average critical point or to another point
where each student neuron approximately copies a different teacher neuron.
Finally, we find similar results for the ReLU activation function, suggesting
that the optimal solution of underparameterized networks has a universal
structure.
- Abstract(参考訳): 任意の連続関数 $f^*$ は、十分に多くのニューロンを持つニューラルネットワークによって任意に近似することができる。
私たちは、$f^*$が1つの隠れ層と$k$ニューロンを持つニューラルネットワークである場合を考える。
したがって、$f^*$を$n<k$ニューロンのニューラルネットワークで近似することは、$k$ニューロンの"Teacher"ネットワークに$n$ニューロンのパラメータ以下の"student"ネットワークを適合させると見なすことができる。
生徒は教師よりニューロンが少ないため、n$の学生ニューロンのそれぞれが教師ニューロンの1つをコピーするか、あるいは教師ニューロンのグループを平均するべきかは不明である。
erfアクティベーション関数と標準ガウス入力分布を持つ浅層ニューラルネットワークでは,教師の入力ベクトルが正規直交し,出力重みがユニタリであれば,"コピー平均"構成が重要なポイントであることが証明される。
さらに、n-1$の学生ニューロンが1つの教師ニューロンをコピーし、n-$の学生ニューロンが残りの$k-n+1$の教師ニューロンを平均すると、そのような構成の最適値に達する。
n=1$のニューロンを持つ学生ネットワークに対して、等価な制約付き最適化問題を解くことによって、一般的に使用される活性化関数に対する非自明な臨界点のクローズドフォームソリューションを提供する。
経験的に、勾配流が最適なコピー平均臨界点に収束するか、あるいは各生徒ニューロンがおよそ異なる教師ニューロンを複製する他の点に収束するerf活性化関数を見いだす。
最後に,reluアクティベーション関数についても同様の結果が得られ,低パラメータネットワークの最適解は普遍的な構造を持つことが示唆された。
関連論文リスト
- Optimal Neural Network Approximation for High-Dimensional Continuous Functions [5.748690310135373]
我々は、その近似において任意の精度を達成するために、少なくとも幅$d$、従って少なくとも$d$固有のニューロンを必要とする連続関数の族を示す。
これは、$mathcalO(d)$内在ニューロンの要求が、入力次元$d$と線形に成長するという意味で最適であることを示している。
論文 参考訳(メタデータ) (2024-09-04T01:18:55Z) - On the High Symmetry of Neural Network Functions [0.0]
ニューラルネットワークを訓練することは、高次元最適化問題を解決することを意味する。
本稿では,ニューラルネットワークの設計方法から,パラメータ空間においてニューラルネットワーク関数が非常に大きな対称性を示すことを示す。
論文 参考訳(メタデータ) (2022-11-12T07:51:14Z) - Normalization effects on deep neural networks [20.48472873675696]
ニューラルネットワークの出力の統計的挙動に対する$gamma_i$の選択の影響について検討する。
ニューラルネットワークの出力とテスト精度のばらつきの観点からは、$gamma_i$sを1にすることを選択すべきである。
論文 参考訳(メタデータ) (2022-09-02T17:05:55Z) - Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods [58.44819696433327]
教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T02:51:36Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - A Local Convergence Theory for Mildly Over-Parameterized Two-Layer
Neural Network [39.341620528427306]
軽度のパラメータ化ニューラルネットワークに対する局所収束理論を考案する。
損失がすでに閾値よりも低い限り、すべての学生ニューロンは教師ニューロンの1つに収束する。
我々の結果は、少なくとも教師のニューロンの数と同じくらいの大きさである限り、任意の数の学生ニューロンに当てはまる。
論文 参考訳(メタデータ) (2021-02-04T04:41:04Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Network size and weights size for memorization with two-layers neural
networks [15.333300054767726]
本稿では,ニューロンの複雑な再結合をベースとしたReLUネットワークの新しいトレーニング手順を提案する。
Oleft(fracnd cdot fraclog(1/epsilon)epsilonright)$のニューロンと、体重のほぼ最適サイズの両方で近似記憶を示す。
論文 参考訳(メタデータ) (2020-06-04T13:44:57Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。