論文の概要: On the Predictability of Pruning Across Scales
- arxiv url: http://arxiv.org/abs/2006.10621v3
- Date: Sun, 4 Jul 2021 02:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 09:50:04.198959
- Title: On the Predictability of Pruning Across Scales
- Title(参考訳): スケールにまたがる刈り込みの予測可能性について
- Authors: Jonathan S. Rosenfeld, Jonathan Frankle, Michael Carbin, Nir Shavit
- Abstract要約: 等級決定ネットワークの誤差は、アーキテクチャやタスクに依存する解釈可能な係数を持つスケーリング法則を経験的に従うことを示す。
ニューラルネットワークがより大きく、訓練にコストがかかるようになるにつれて、我々の発見は、非構造化プルーニングの標準的な方法に関する概念的かつ分析的な推論の枠組みを示唆している。
- 参考スコア(独自算出の注目度): 29.94870276983399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that the error of iteratively magnitude-pruned networks empirically
follows a scaling law with interpretable coefficients that depend on the
architecture and task. We functionally approximate the error of the pruned
networks, showing it is predictable in terms of an invariant tying width,
depth, and pruning level, such that networks of vastly different pruned
densities are interchangeable. We demonstrate the accuracy of this
approximation over orders of magnitude in depth, width, dataset size, and
density. We show that the functional form holds (generalizes) for large scale
data (e.g., ImageNet) and architectures (e.g., ResNets). As neural networks
become ever larger and costlier to train, our findings suggest a framework for
reasoning conceptually and analytically about a standard method for
unstructured pruning.
- Abstract(参考訳): 反復的に拡大するネットワークの誤差は、アーキテクチャとタスクに依存する解釈可能な係数を持つスケーリング則に実証的に従っていることを示す。
我々は, プルーンドネットワークの誤差を関数的に近似し, 大きく異なるプルーンド密度のネットワークが交換可能であるような, 不変なタイリング幅, 深さ, プルーニングレベルで予測可能であることを示す。
我々は、この近似の精度を、深さ、幅、データセットサイズ、密度の桁数で示す。
機能形式は大規模データ(例えば ImageNet)やアーキテクチャ(例えば ResNets)に対して保持する(一般化する)ことを示す。
ニューラルネットワークがより大きく、訓練にコストがかかるようになるにつれて、我々の発見は、非構造化プルーニングの標準的な方法に関する概念的かつ分析的な推論の枠組みを示唆している。
関連論文リスト
- Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Slope and generalization properties of neural networks [0.0]
十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。
傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。
本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
論文 参考訳(メタデータ) (2021-07-03T17:54:27Z) - Analytic Insights into Structure and Rank of Neural Network Hessian Maps [32.90143789616052]
ニューラルネットワークのヘシアンは、損失の2階微分を通じてパラメータ相互作用をキャプチャする。
我々は、ヘッセン写像の範囲を分析する理論的ツールを開発し、その階数不足の正確な理解を提供する。
これにより、ディープ線形ネットワークのヘッセン階数に対する正確な公式と厳密な上界が得られる。
論文 参考訳(メタデータ) (2021-06-30T17:29:58Z) - Generic Perceptual Loss for Modeling Structured Output Dependencies [78.59700528239141]
トレーニングされた重みではなく、ネットワーク構造が重要であることを示す。
我々は、出力の構造化依存関係をモデル化するためにランダムに重み付けされたディープcnnが使用できることを実証する。
論文 参考訳(メタデータ) (2021-03-18T23:56:07Z) - Lost in Pruning: The Effects of Pruning Neural Networks beyond Test
Accuracy [42.15969584135412]
ニューラルネットワークプルーニングは、現代のネットワークの推論コストを削減するために使用される一般的な技術です。
試験精度のみを終了条件で使用するだけで、結果のモデルが正常に機能するかどうかを評価します。
刈り取られたネットワークは、効果的に未刈り込みモデルに近似するが、刈り取られたネットワークがコンメンシュレートのパフォーマンスを達成できるプルー比はタスクによって大きく異なる。
論文 参考訳(メタデータ) (2021-03-04T13:22:16Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。