論文の概要: Insights into the Lottery Ticket Hypothesis and Iterative Magnitude Pruning
- arxiv url: http://arxiv.org/abs/2403.15022v3
- Date: Tue, 25 Jun 2024 15:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 20:09:17.402431
- Title: Insights into the Lottery Ticket Hypothesis and Iterative Magnitude Pruning
- Title(参考訳): ロッタリー・ポケット仮説と反復マグニチュード・プルーニング
- Authors: Tausifa Jan Saleem, Ramanjit Ahuja, Surendra Prasad, Brejesh Lall,
- Abstract要約: そこで本研究では,反復的等級切削工程の様々な段階で得られた溶液の体積/幾何学および損失景観特性について検討した。
抽選券仮説によって提案された特定の初期化が、一般化(および訓練)性能においてよりうまく機能する傾向にある理由を説明する。
- 参考スコア(独自算出の注目度): 6.725643794338811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lottery ticket hypothesis for deep neural networks emphasizes the importance of initialization used to re-train the sparser networks obtained using the iterative magnitude pruning process. An explanation for why the specific initialization proposed by the lottery ticket hypothesis tends to work better in terms of generalization (and training) performance has been lacking. Moreover, the underlying principles in iterative magnitude pruning, like the pruning of smaller magnitude weights and the role of the iterative process, lack full understanding and explanation. In this work, we attempt to provide insights into these phenomena by empirically studying the volume/geometry and loss landscape characteristics of the solutions obtained at various stages of the iterative magnitude pruning process.
- Abstract(参考訳): ディープニューラルネットワークのロッテチケット仮説は、反復等級プルーニングプロセスを用いて得られたスペーサーネットワークを再訓練するために使われる初期化の重要性を強調している。
抽選券仮説によって提案された特定の初期化が、一般化(および訓練)性能においてよりうまく機能する傾向にある理由を説明する。
さらに、イテレーティブ・マグニチュード・プルーニング(英語版)の根底にある原則、例えば、より小さなマグニチュードのプルーニングや反復的プロセスの役割は、完全な理解と説明が欠如している。
本研究は, 反復等級プルーニングプロセスの様々な段階において得られた溶液の体積・幾何学的特徴と損失景観特性を実証的に研究することによって, これらの現象に関する知見を提供するものである。
関連論文リスト
- Implicit Regularization for Tubal Tensor Factorizations via Gradient Descent [4.031100721019478]
遅延学習体制を超えて過度にパラメータ化されたテンソル分解問題における暗黙正則化の厳密な解析を行う。
勾配流ではなく勾配降下の種別の最初のテンソル結果を証明する。
論文 参考訳(メタデータ) (2024-10-21T17:52:01Z) - On the Role of Initialization on the Implicit Bias in Deep Linear
Networks [8.272491066698041]
本研究は,遊びにおける暗黙の偏見に起因する現象を探索することに焦点を当てた。
ステップサイズ、重み初期化、最適化アルゴリズム、パラメータ数など、暗黙バイアスの様々な情報源が特定されている。
論文 参考訳(メタデータ) (2024-02-04T11:54:07Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Why Neural Networks Work [0.32228025627337864]
完全接続型フィードフォワードニューラルネットワーク(FCNN)の多くの特性は、1対の操作の解析から説明可能であると論じる。
文献で論じられた現象がいかに拡大・スパーシフィケーションが説明できるかを示す。
論文 参考訳(メタデータ) (2022-11-26T18:15:17Z) - How You Start Matters for Generalization [26.74340246715699]
ニューラルネットワークの一般化は、その初期化に強く結びついていることが示される。
議論を呼んでいるフラットミニマ予想に反論する。
論文 参考訳(メタデータ) (2022-06-17T05:30:56Z) - An Operator Theoretic Perspective on Pruning Deep Neural Networks [2.624902795082451]
我々は、動的システム理論の最近の進歩を利用して、理論上動機付けられたプルーニングアルゴリズムの新しいクラスを定義する。
これらのアルゴリズムは、等級や勾配に基づくプルーニングと等価であることを示す。
論文 参考訳(メタデータ) (2021-10-28T02:33:50Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Dynamical Isometry: The Missing Ingredient for Neural Network Pruning [65.59151170177664]
微調整学習率が大きいと、最終的なパフォーマンスが大幅に向上する。
本論文では,動的等方性レンズを用いて説明する。
プルーニングに関するより明確な理論的理解に加えて、問題の解決は実践においてかなりのパフォーマンス上のメリットをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-05-12T19:20:09Z) - Multivariate Deep Evidential Regression [77.34726150561087]
不確実性を認識するニューラルネットワークによる新しいアプローチは、従来の決定論的手法よりも有望である。
本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:20:18Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。