論文の概要: PHEW: Constructing Sparse Networks that Learn Fast and Generalize Well
without Training Data
- arxiv url: http://arxiv.org/abs/2010.11354v2
- Date: Wed, 23 Jun 2021 13:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:18:31.902407
- Title: PHEW: Constructing Sparse Networks that Learn Fast and Generalize Well
without Training Data
- Title(参考訳): PHEW: トレーニングデータなしで学習し、より良く一般化するスパースネットワークの構築
- Authors: Shreyas Malakarjun Patil, Constantine Dovrolis
- Abstract要約: 本稿では、Synflow-L2アルゴリズムを用いて、トレーニングデータなしでより高速な収束を実現するためのスパースニューラルネットワークの設計方法を示す。
PHEW(Paths with Higher-Edge Weights)と呼ばれるトレーニングデータなしでスパースネットワークを構築する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.01323660393278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods that sparsify a network at initialization are important in practice
because they greatly improve the efficiency of both learning and inference. Our
work is based on a recently proposed decomposition of the Neural Tangent Kernel
(NTK) that has decoupled the dynamics of the training process into a
data-dependent component and an architecture-dependent kernel - the latter
referred to as Path Kernel. That work has shown how to design sparse neural
networks for faster convergence, without any training data, using the
Synflow-L2 algorithm. We first show that even though Synflow-L2 is optimal in
terms of convergence, for a given network density, it results in sub-networks
with "bottleneck" (narrow) layers - leading to poor performance as compared to
other data-agnostic methods that use the same number of parameters. Then we
propose a new method to construct sparse networks, without any training data,
referred to as Paths with Higher-Edge Weights (PHEW). PHEW is a probabilistic
network formation method based on biased random walks that only depends on the
initial weights. It has similar path kernel properties as Synflow-L2 but it
generates much wider layers, resulting in better generalization and
performance. PHEW achieves significant improvements over the data-independent
SynFlow and SynFlow-L2 methods at a wide range of network densities.
- Abstract(参考訳): 初期化時にネットワークをスパース化する手法は、学習と推論の両方の効率を大幅に改善するため、実際に重要である。
我々の研究は、最近提案されたNeural Tangent Kernel(NTK)の分解に基づいており、トレーニングプロセスのダイナミクスをデータ依存コンポーネントとアーキテクチャ依存カーネル(後者はPath Kernelと呼ばれる)に分離した。
この研究は、Synflow-L2アルゴリズムを使用して、トレーニングデータなしで、より高速な収束のためにスパースニューラルネットワークを設計する方法を示した。
我々はまず、Synflow-L2が収束の点で最適であるにもかかわらず、ネットワーク密度が与えられた場合、ネットワークのサブネットワークに"bottleneck"層(狭い層)が生じることを示し、同じ数のパラメータを使用する他のデータに依存しない手法と比べてパフォーマンスが劣ることを示した。
そこで本稿では,PHEW(Paths with Higher-Edge Weights)と呼ばれるトレーニングデータなしでスパースネットワークを構築する手法を提案する。
phewは、初期重みのみに依存するバイアス付きランダムウォークに基づく確率的ネットワーク形成手法である。
Synflow-L2と同様のパスカーネル特性を持つが、より広い層を生成するため、より一般化と性能が向上する。
PHEWは、幅広いネットワーク密度で、データ非依存のSynFlowとSynFlow-L2メソッドよりも大幅に改善されている。
関連論文リスト
- Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Classifying high-dimensional Gaussian mixtures: Where kernel methods
fail and neural networks succeed [27.38015169185521]
2層ニューラルネットワーク (2lnn) の隠れたニューロンがカーネル学習の性能を上回ることができることを理論的に示している。
ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的な性能は改善しないことを示す。
論文 参考訳(メタデータ) (2021-02-23T15:10:15Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Learning Sparse Filters in Deep Convolutional Neural Networks with a
l1/l2 Pseudo-Norm [5.3791844634527495]
ディープニューラルネットワーク(DNN)は、多くのタスクで効率的であることが証明されているが、高いメモリと計算コストが伴う。
近年の研究では、それらの構造は性能を損なうことなくよりコンパクトにすることができることが示されている。
フィルタ係数に定義された比 l1/l2 の擬ノルムに基づいて, 疎度誘導正規化項を提案する。
論文 参考訳(メタデータ) (2020-07-20T11:56:12Z) - A Neural Network Approach for Online Nonlinear Neyman-Pearson
Classification [3.6144103736375857]
論文の中では,オンラインと非線形の両方で初となる新しいNeyman-Pearson(NP)分類器を提案する。
提案する分類器は、オンライン方式でバイナリラベル付きデータストリーム上で動作し、ユーザが指定し、制御可能な偽陽性率の検出能力を最大化する。
提案アルゴリズムは大規模データアプリケーションに適しており,実時間処理による偽陽性率制御性を実現している。
論文 参考訳(メタデータ) (2020-06-14T20:00:25Z) - Pruning neural networks without any data by iteratively conserving
synaptic flow [27.849332212178847]
ディープニューラルネットワークのパラメータを抽出することは、時間、記憶、エネルギーの潜在的な節約によって、大きな関心を集めている。
近年の研究では、高価なトレーニングとプルーニングサイクルを通じて、当選した宝くじやスパーストレーナーブルワークスの存在が特定されている。
我々は、理論駆動型アルゴリズム設計を通じて、この問題に対する肯定的な回答を提供する。
論文 参考訳(メタデータ) (2020-06-09T19:21:57Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。