論文の概要: Keep the Gradients Flowing: Using Gradient Flow to Study Sparse Network
Optimization
- arxiv url: http://arxiv.org/abs/2102.01670v1
- Date: Tue, 2 Feb 2021 18:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:19:49.035864
- Title: Keep the Gradients Flowing: Using Gradient Flow to Study Sparse Network
Optimization
- Title(参考訳): グラディエントフローの維持:グラディエントフローを用いたスパースネットワーク最適化の研究
- Authors: Kale-ab Tessera, Sara Hooker, Benjamin Rosman
- Abstract要約: スパースネットワークのトレーニングについて、より広い視点で考察し、スパースモデルにおける正規化、最適化、アーキテクチャ選択の役割について考察する。
アーキテクチャ設計とトレーニング体制の側面を再考することにより,スパースネットワーク内の勾配流を改善することができることを示す。
- 参考スコア(独自算出の注目度): 16.85167651136133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training sparse networks to converge to the same performance as dense neural
architectures has proven to be elusive. Recent work suggests that
initialization is the key. However, while this direction of research has had
some success, focusing on initialization alone appears to be inadequate. In
this paper, we take a broader view of training sparse networks and consider the
role of regularization, optimization and architecture choices on sparse models.
We propose a simple experimental framework, Same Capacity Sparse vs Dense
Comparison (SC-SDC), that allows for fair comparison of sparse and dense
networks. Furthermore, we propose a new measure of gradient flow, Effective
Gradient Flow (EGF), that better correlates to performance in sparse networks.
Using top-line metrics, SC-SDC and EGF, we show that default choices of
optimizers, activation functions and regularizers used for dense networks can
disadvantage sparse networks. Based upon these findings, we show that gradient
flow in sparse networks can be improved by reconsidering aspects of the
architecture design and the training regime. Our work suggests that
initialization is only one piece of the puzzle and taking a wider view of
tailoring optimization to sparse networks yields promising results.
- Abstract(参考訳): 密集型ニューラルネットワークと同じ性能に収束するスパースネットワークの訓練は、解明されている。
最近の研究は初期化が鍵であることを示唆している。
しかし、この研究の方向性は成功していますが、初期化だけに焦点を合わせると不十分なようです。
本稿では,スパースモデルにおける正規化,最適化,アーキテクチャ選択の役割について考察する。
我々は,スパースネットワークと高密度ネットワークの公平な比較を可能にする,単純な実験フレームワークであるSame Capacity Sparse vs Dense Comparison (SC-SDC)を提案する。
さらに,スパースネットワークの性能と相関する勾配流,有効勾配流(EGF)の新たな測定法を提案する。
トップラインメトリクスsc-sdcとegfを用いて,高濃度ネットワークで使用されるオプティマイザ,アクティベーション関数,レギュラライザのデフォルト選択がスパースネットワークに不利であることを示す。
これらの結果から,スパースネットワークにおけるグラデーションフローは,アーキテクチャ設計とトレーニング体制の側面を再考することで改善できることを示した。
私たちの研究は、初期化はパズルの1つの部分にすぎないことを示唆し、スパースネットワークへの調整最適化の広い視野を取ることは有望な結果をもたらす。
関連論文リスト
- Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - Neural Network Compression by Joint Sparsity Promotion and Redundancy
Reduction [4.9613162734482215]
本稿では,冗長なフィルタを創出し,空間性向上によるネットワーク学習に対する効果を最小化する,複合制約に基づく新しい学習手法を提案する。
いくつかのピクセルワイドセグメンテーションベンチマークによるテストでは、テストフェーズにおけるネットワークのニューロン数とメモリフットプリントが、性能に影響を与えずに大幅に減少することが示された。
論文 参考訳(メタデータ) (2022-10-14T01:34:49Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。