論文の概要: Prevention is Better than Cure: Handling Basis Collapse and Transparency
in Dense Networks
- arxiv url: http://arxiv.org/abs/2008.09878v1
- Date: Sat, 22 Aug 2020 17:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 07:45:31.593709
- Title: Prevention is Better than Cure: Handling Basis Collapse and Transparency
in Dense Networks
- Title(参考訳): 予防は治療より優れている:密集ネットワークにおける基礎崩壊と透明性の取り扱い
- Authors: Gurpreet Singh, Soumyajit Gupta, Clint N. Dawson
- Abstract要約: 本稿では,基本崩壊問題を主な原因とみなし,この問題を回避する改良された損失関数を提案する。
提案手法は, 基礎崩壊問題により, 膨大な冗長ネットワークの設計が導かれることを示す数値実験である。
提案手法では,100倍のパラメータが10倍,MSE損失が10倍に抑えられた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense nets are an integral part of any classification and regression problem.
Recently, these networks have found a new application as solvers for known
representations in various domains. However, one crucial issue with dense nets
is it's feature interpretation and lack of reproducibility over multiple
training runs. In this work, we identify a basis collapse issue as a primary
cause and propose a modified loss function that circumvents this problem. We
also provide a few general guidelines relating the choice of activations to
loss surface roughness and appropriate scaling for designing low-weight dense
nets. We demonstrate through carefully chosen numerical experiments that the
basis collapse issue leads to the design of massively redundant networks. Our
approach results in substantially concise nets, having $100 \times$ fewer
parameters, while achieving a much lower $(10\times)$ MSE loss at scale than
reported in prior works. Further, we show that the width of a dense net is
acutely dependent on the feature complexity. This is in contrast to the
dimension dependent width choice reported in prior theoretical works. To the
best of our knowledge, this is the first time these issues and contradictions
have been reported and experimentally verified. With our design guidelines we
render transparency in terms of a low-weight network design. We share our codes
for full reproducibility available at
https://github.com/smjtgupta/Dense_Net_Regress.
- Abstract(参考訳): デンスネットはあらゆる分類と回帰問題の不可欠な部分である。
近年,これらのネットワークは様々な領域における既知の表現の解法として新たな応用を見出した。
しかし、密度の高いネットの1つの重要な問題は、複数のトレーニング実行に対する特徴解釈と再現性の欠如である。
本研究では,基礎崩壊問題の主な原因を特定し,この問題を回避する修正損失関数を提案する。
また,低重量高密度ネットの設計において,表面粗さの損失に対するアクティベーションの選択と適切なスケーリングに関する一般的なガイドラインも提示する。
基礎崩壊の問題が大規模冗長ネットワークの設計につながることを注意深く選択した数値実験により実証する。
提案手法により,100 \times$パラメータが少なくなるとともに,MSE損失が従来報告よりもはるかに低い10\times$MSE損失が得られる。
さらに,高密度ネットの幅は特徴量に大きく依存していることを示す。
これは、以前の理論研究で報告された次元依存幅選択とは対照的である。
私たちの知る限りでは、これらの問題と矛盾が報告され、実験的に検証されたのはこれが初めてです。
設計ガイドラインでは、低軽量ネットワーク設計の観点で透明性を保ちます。
完全な再現性のためのコードをhttps://github.com/smjtgupta/dense_net_regressで公開しています。
関連論文リスト
- Network reconstruction via the minimum description length principle [0.0]
階層的ベイズ推定と重み量子化に基づく別の非パラメトリック正則化スキームを提案する。
提案手法は最小記述長 (MDL) の原理に従い, データの最大圧縮を可能にする重み分布を明らかにする。
提案手法は, 人工ネットワークと経験ネットワークの再構築において, 体系的に精度を向上することを示した。
論文 参考訳(メタデータ) (2024-05-02T05:35:09Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Generic Perceptual Loss for Modeling Structured Output Dependencies [78.59700528239141]
トレーニングされた重みではなく、ネットワーク構造が重要であることを示す。
我々は、出力の構造化依存関係をモデル化するためにランダムに重み付けされたディープcnnが使用できることを実証する。
論文 参考訳(メタデータ) (2021-03-18T23:56:07Z) - A simple geometric proof for the benefit of depth in ReLU networks [57.815699322370826]
本論文では, 多層フィードフォワードネットワークにおける深度の利点を, 整流活性化(深度分離)により証明する。
我々は、線形深さ($m$)と小さな定数幅($leq 4$)を持つ具体的なニューラルネットワークを示し、問題をゼロエラーで分類する。
論文 参考訳(メタデータ) (2021-01-18T15:40:27Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Greedy Optimization Provably Wins the Lottery: Logarithmic Number of
Winning Tickets is Enough [19.19644194006565]
精度低下の許容範囲が指定されたニューラルネットワークのプルーク数を示す。
提案手法は,プルーンドネットワークと元のネットワークとの差が指数関数的に速い速度で減衰することを保証している。
本研究では,ResNet や MobilenetV2/V3 など,様々なネットワークアーキテクチャを ImageNet 上で刈り取る手法を実証的に改良する。
論文 参考訳(メタデータ) (2020-10-29T22:06:31Z) - Grow-Push-Prune: aligning deep discriminants for effective structural
network compression [5.532477732693]
本稿では,タスク依存型コンパクトモデルの深層判別分析の観点から導出を試みる。
本稿では,プッシュステップとプルーニングステップを交互に交互に行う分類タスクに対して,反復的かつ積極的なアプローチを提案する。
MNIST、CIFAR10、ImageNetデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-09-29T01:29:23Z) - On the Predictability of Pruning Across Scales [29.94870276983399]
等級決定ネットワークの誤差は、アーキテクチャやタスクに依存する解釈可能な係数を持つスケーリング法則を経験的に従うことを示す。
ニューラルネットワークがより大きく、訓練にコストがかかるようになるにつれて、我々の発見は、非構造化プルーニングの標準的な方法に関する概念的かつ分析的な推論の枠組みを示唆している。
論文 参考訳(メタデータ) (2020-06-18T15:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。