論文の概要: The EarlyBird Gets the WORM: Heuristically Accelerating EarlyBird Convergence
- arxiv url: http://arxiv.org/abs/2406.11872v2
- Date: Tue, 29 Oct 2024 21:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:34.071444
- Title: The EarlyBird Gets the WORM: Heuristically Accelerating EarlyBird Convergence
- Title(参考訳): EarlyBirdがWORMを導入 - EarlyBirdコンバージェンスをヒューリスティックに加速
- Authors: Adithya Vasudev,
- Abstract要約: Early Bird仮説は、高密度ニューラルネットワークで当選した宝くじを見つけるための効率的なアルゴリズムを提案する。
探索終端付近の非重要なニューロン群を非変化的に活用する手法であるWORMを提案する。
実験によると、WORMは、計算オーバーヘッドが増大しているにもかかわらず、畳み込みニューラルネットワークのトレーニング中に、より高速なチケット識別を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Lottery Ticket hypothesis proposes that ideal, sparse subnetworks, called lottery tickets, exist in untrained dense neural networks. The Early Bird hypothesis proposes an efficient algorithm to find these winning lottery tickets in convolutional neural networks, using the novel concept of distance between subnetworks to detect convergence in the subnetworks of a model. However, this approach overlooks unchanging groups of unimportant neurons near the search's end. We proposes WORM, a method that exploits these static groups by truncating their gradients, forcing the model to rely on other neurons. Experiments show WORM achieves faster ticket identification during training on convolutional neural networks, despite the additional computational overhead, when compared to EarlyBird search. Additionally, WORM-pruned models lose less accuracy during pruning and recover accuracy faster, improving the robustness of a given model. Furthermore, WORM is also able to generalize the Early Bird hypothesis reasonably well to larger models, such as transformers, displaying its flexibility to adapt to more complex architectures.
- Abstract(参考訳): Lottery Ticket仮説は、未学習の高密度ニューラルネットワークに、宝くじと呼ばれる、理想的でまばらなサブネットワークが存在することを示唆している。
Early Bird仮説は、モデルのサブネットワーク内の収束を検出するためにサブネットワーク間の距離という新しい概念を用いて、畳み込みニューラルネットワークでこれらの当選宝くじを見つける効率的なアルゴリズムを提案する。
しかし、このアプローチは探索の終端付近で重要でないニューロンの群が変化するのを見落としている。
WORMは、これらの静的なグループを利用して勾配を計算し、モデルが他のニューロンに頼らざるを得ないようにする手法である。
実験によると、WORMは、EarlyBird検索と比較して計算オーバーヘッドが増大しているにもかかわらず、畳み込みニューラルネットワークのトレーニング中にチケットの識別を高速化する。
さらに、WORM処理されたモデルでは、プルーニングの精度が低下し、精度が向上し、与えられたモデルの堅牢性が向上する。
さらに、WORMは、より複雑なアーキテクチャに適応する柔軟性を示すトランスフォーマーのような大きなモデルに対して、Early Bird仮説を合理的に一般化することができる。
関連論文リスト
- Discovering Physics-Informed Neural Networks Model for Solving Partial Differential Equations through Evolutionary Computation [5.8407437499182935]
本稿では,より高い近似精度と高速収束率を持つPINNモデルの探索を目的とした進化的計算手法を提案する。
実験では、ベイズ最適化、ランダム探索、進化を通じて探索される異なるモデルの性能を比較して、クライン=ゴルドン方程式、バーガー方程式、ラム方程式を解く。
論文 参考訳(メタデータ) (2024-05-18T07:32:02Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Look beyond labels: Incorporating functional summary information in
Bayesian neural networks [11.874130244353253]
予測確率に関する要約情報を組み込むための簡単な手法を提案する。
利用可能な要約情報は、拡張データとして組み込まれ、ディリクレプロセスでモデル化される。
本稿では,タスクの難易度やクラス不均衡をモデルに示す方法について述べる。
論文 参考訳(メタデータ) (2022-07-04T07:06:45Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Research on a New Convolutional Neural Network Model Combined with
Random Edges Adding [10.519799195357209]
畳み込みニューラルネットワークモデルの性能向上のために,ランダムエッジ付加アルゴリズムを提案する。
シミュレーションの結果, モデル認識精度とトレーニング収束速度は, 再構成モデルのランダムエッジ付加により大幅に向上することがわかった。
論文 参考訳(メタデータ) (2020-03-17T16:17:55Z) - PushNet: Efficient and Adaptive Neural Message Passing [1.9121961872220468]
メッセージパッシングニューラルネットワークは、最近、グラフ上での表現学習に対する最先端のアプローチへと進化した。
既存のメソッドは、複数のラウンドですべてのエッジに沿って同期メッセージパッシングを実行する。
我々は、収束するまで最も関連性の高いエッジに沿ってのみ情報をプッシュする、新しい非同期メッセージパッシングアプローチについて検討する。
論文 参考訳(メタデータ) (2020-03-04T18:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。