論文の概要: Weight-Sharing Regularization
- arxiv url: http://arxiv.org/abs/2311.03096v2
- Date: Mon, 11 Mar 2024 02:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:30:04.914842
- Title: Weight-Sharing Regularization
- Title(参考訳): 重量共有正規化
- Authors: Mehran Shakerinava, Motahareh Sohrabi, Siamak Ravanbakhsh, Simon
Lacoste-Julien
- Abstract要約: ニューラルネットワークのmathbbRd$の重み付き正規化(weight-sharing regularization)に対して,重み付き正規化(weight-sharing regularization)のペナルティを提案する。
実験により、重み共有正規化により、ピクセルがシャッフルされた場合でも、完全に接続されたネットワークで畳み込みのようなフィルタを学習できることが明らかになった。
- 参考スコア(独自算出の注目度): 35.65221859221282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight-sharing is ubiquitous in deep learning. Motivated by this, we propose
a "weight-sharing regularization" penalty on the weights $w \in \mathbb{R}^d$
of a neural network, defined as $\mathcal{R}(w) = \frac{1}{d - 1}\sum_{i > j}^d
|w_i - w_j|$. We study the proximal mapping of $\mathcal{R}$ and provide an
intuitive interpretation of it in terms of a physical system of interacting
particles. We also parallelize existing algorithms for
$\operatorname{prox}_\mathcal{R}$ (to run on GPU) and find that one of them is
fast in practice but slow ($O(d)$) for worst-case inputs. Using the physical
interpretation, we design a novel parallel algorithm which runs in $O(\log^3
d)$ when sufficient processors are available, thus guaranteeing fast training.
Our experiments reveal that weight-sharing regularization enables fully
connected networks to learn convolution-like filters even when pixels have been
shuffled while convolutional neural networks fail in this setting. Our code is
available on github.
- Abstract(参考訳): 重み付けはディープラーニングにおいてユビキタスである。
これにより、ニューラルネットワークの重み値$w \in \mathbb{r}^d$に対する「重み共有正規化」のペナルティが提案され、$\mathcal{r}(w) = \frac{1}{d - 1}\sum_{i > j}^d |w_i - w_j|$ と定義される。
我々は、$\mathcal{r}$ の近位写像を研究し、相互作用する粒子の物理系の観点から直感的な解釈を提供する。
また、既存のアルゴリズムを$\operatorname{prox}_\mathcal{r}$(gpuで動かすために)並列化し、そのうちの1つが実際に速いが、最悪の入力には遅い(o(d)$)ことに気付く。
物理解釈を用いて、十分なプロセッサが利用可能であれば$o(\log^3 d)$で動作する新しい並列アルゴリズムを設計し、高速トレーニングを保証する。
実験の結果,畳み込みニューラルネットワークが故障しても,重み共有正規化により,畳み込み型フィルタを学習できることがわかった。
コードはgithubから入手できます。
関連論文リスト
- Approximation of the Proximal Operator of the $\ell_\infty$ Norm Using a Neural Network [1.7265013728931]
ニューラルネットワークを用いて,$textbfprox_alphacdot||infty(mathbfx)$を近似する。
ネットワークの新たな側面は、特徴選択プロセスにより、様々な長さのベクトルを受け入れることができることである。
特徴選択を使用しない「バニラニューラルネットワーク」よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-20T22:12:30Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Most Neural Networks Are Almost Learnable [52.40331776572531]
固定された$epsilon>0$とdeep $i$に対して、深さ$i$のランダムなXavierネットワークを学習するポリ時間アルゴリズムが存在することを示す。
このアルゴリズムは時間とサンプルの複雑さが$(bard)mathrmpoly(epsilon-1)$であり、$bar d$はネットワークのサイズである。
シグモイドやReLU様の活性化の場合、境界は$(bard)mathrmpolylog(eps)に改善できる。
論文 参考訳(メタデータ) (2023-05-25T22:27:42Z) - Maximal Initial Learning Rates in Deep ReLU Networks [32.157430904535126]
最大初等学習率$etaast$を導入する。
定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
論文 参考訳(メタデータ) (2022-12-14T15:58:37Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Near-Linear Time and Fixed-Parameter Tractable Algorithms for Tensor
Decompositions [51.19236668224547]
テンソルの低階近似について検討し,テンソルトレインとタッカー分解に着目した。
テンソル列車の分解には、小さなビクリテリアランクを持つビクリテリア$(1 + eps)$-approximationアルゴリズムと、O(q cdot nnz(A))$ランニングタイムを与える。
さらに、任意のグラフを持つテンソルネットワークにアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2022-07-15T11:55:09Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Training (Overparametrized) Neural Networks in Near-Linear Time [21.616949485102342]
本稿では,ReparamLUネットワークをトレーニングするための[CGH+1]アルゴリズムの高速化について述べる。
我々のアルゴリズムの中心はガウスニュートンを$ell$-reconditionとして再構成することである。
論文 参考訳(メタデータ) (2020-06-20T20:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。