論文の概要: Dynamical Isometry: The Missing Ingredient for Neural Network Pruning
- arxiv url: http://arxiv.org/abs/2105.05916v1
- Date: Wed, 12 May 2021 19:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:12:33.240814
- Title: Dynamical Isometry: The Missing Ingredient for Neural Network Pruning
- Title(参考訳): 動的アイソメトリ:ニューラルネットワークのプルーニングの欠如成分
- Authors: Huan Wang, Can Qin, Yue Bai, Yun Fu
- Abstract要約: 微調整学習率が大きいと、最終的なパフォーマンスが大幅に向上する。
本論文では,動的等方性レンズを用いて説明する。
プルーニングに関するより明確な理論的理解に加えて、問題の解決は実践においてかなりのパフォーマンス上のメリットをもたらす可能性がある。
- 参考スコア(独自算出の注目度): 65.59151170177664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several recent works [40, 24] observed an interesting phenomenon in neural
network pruning: A larger finetuning learning rate can improve the final
performance significantly. Unfortunately, the reason behind it remains elusive
up to date. This paper is meant to explain it through the lens of dynamical
isometry [42]. Specifically, we examine neural network pruning from an unusual
perspective: pruning as initialization for finetuning, and ask whether the
inherited weights serve as a good initialization for the finetuning? The
insights from dynamical isometry suggest a negative answer. Despite its
critical role, this issue has not been well-recognized by the community so far.
In this paper, we will show the understanding of this problem is very important
-- on top of explaining the aforementioned mystery about the larger finetuning
rate, it also unveils the mystery about the value of pruning [5, 30]. Besides a
clearer theoretical understanding of pruning, resolving the problem can also
bring us considerable performance benefits in practice.
- Abstract(参考訳): 最近のいくつかの研究(40,24)では、ニューラルネットワークのプルーニングにおいて興味深い現象が観察されている。
残念ながら、その理由はいまだに解明されていない。
本論文は, 動的アイソメトリーのレンズ [42] による説明を目的としている。
具体的には、ニューラルネットワークのプルーニングを異常な観点から調べる: ファインタニングのイニシャル化としてプルーニングを行い、継承したウェイトがファインタニングの優れた初期化に役立つかどうかを問う。
動的等長法からの洞察は否定的な答えを示唆する。
その重要な役割にもかかわらず、この問題はコミュニティによって認識されていない。
本稿では,この問題の理解が極めて重要であることを示すとともに,上述の微調整率に関するミステリーを説明するとともに,プルーニングの価値に関するミステリーを明らかにする [5, 30]。
プルーニングに関するより明確な理論的理解に加えて、問題の解決は実践においてかなりのパフォーマンス上のメリットをもたらす可能性がある。
関連論文リスト
- Insights into the Lottery Ticket Hypothesis and Iterative Magnitude Pruning [6.725643794338811]
そこで本研究では,反復的等級切削工程の様々な段階で得られた溶液の体積/幾何学および損失景観特性について検討した。
抽選券仮説によって提案された特定の初期化が、一般化(および訓練)性能においてよりうまく機能する傾向にある理由を説明する。
論文 参考訳(メタデータ) (2024-03-22T08:11:14Z) - On Over-Squashing in Message Passing Neural Networks: The Impact of
Width, Depth, and Topology [4.809459273366461]
メッセージパッシングニューラルネットワーク(MPNN)は、グラフを利用してエッジにメッセージを送信するグラフニューラルネットワークのインスタンスである。
この帰納バイアスは、ノードの特徴が遠いノードに含まれる情報に敏感であるオーバー・スカッシング(over-squashing)と呼ばれる現象につながる。
この問題を軽減するために近年導入された手法にもかかわらず、過度な監視と解決策の可能性についての理解は欠如している。
論文 参考訳(メタデータ) (2023-02-06T17:16:42Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Why Neural Networks Work [0.32228025627337864]
完全接続型フィードフォワードニューラルネットワーク(FCNN)の多くの特性は、1対の操作の解析から説明可能であると論じる。
文献で論じられた現象がいかに拡大・スパーシフィケーションが説明できるかを示す。
論文 参考訳(メタデータ) (2022-11-26T18:15:17Z) - Emerging Paradigms of Neural Network Pruning [82.9322109208353]
この問題に対する後処理ソリューションとしてPruningが採用され、パフォーマンスを損なわないニューラルネットワークの不要なパラメータの除去を目指している。
最近の研究では、パフォーマンスと密接なそれとを一致させるように訓練できるランダムなスパースネットワークを発見することによって、この信念に挑戦している。
この調査は、従来のアルゴリズムとうまく適合できるように、一般的な刈り取りフレームワークを提案し、ギャップを埋めることを目指しています。
論文 参考訳(メタデータ) (2021-03-11T05:01:52Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Towards Deeper Graph Neural Networks [63.46470695525957]
グラフ畳み込みは近傍の集約を行い、最も重要なグラフ操作の1つである。
いくつかの最近の研究で、この性能劣化は過度に滑らかな問題に起因している。
本研究では,大きな受容領域からの情報を適応的に組み込むディープ適応グラフニューラルネットワーク(DAGNN)を提案する。
論文 参考訳(メタデータ) (2020-07-18T01:11:14Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。