Fugu-MT 論文翻訳(概要): The EarlyBird Gets the WORM: Heuristically Accelerating EarlyBird Convergence

論文の概要: The EarlyBird Gets the WORM: Heuristically Accelerating EarlyBird Convergence

arxiv url: http://arxiv.org/abs/2406.11872v1
Date: Fri, 31 May 2024 05:13:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-23 13:24:48.409770
Title: The EarlyBird Gets the WORM: Heuristically Accelerating EarlyBird Convergence
Title（参考訳）: EarlyBirdがWORMを導入 - EarlyBirdコンバージェンスをヒューリスティックに加速
Authors: Adithya Vasudev,
Abstract要約: Early Bird仮説は、畳み込みニューラルネットワークで当選した宝くじを見つけるための効率的なアルゴリズムを提案する。 WORMは, 静的群を利用して勾配を計算し, モデルが他のニューロンに頼らざるを得ない手法である。実験の結果、WORMはより高速なチケット識別トレーニングを実現し、計算オーバーヘッドの増大にもかかわらずFLOPを少なくすることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The Lottery Ticket hypothesis proposes that ideal sparse subnetworks called lottery tickets exist in the untrained dense network. The Early Bird hypothesis proposes an efficient algorithm to find these winning lottery tickets in convolutional neural networks using the novel concept of distance between subnetworks to detect convergence in the subnetworks of a model. However, this approach overlooks unchanging groups of unimportant neurons near the end of the search. We propose WORM, a method that exploits these static groups by truncating their gradients, forcing the model to rely on other neurons. Experiments show WORM achieves faster ticket identification training and uses fewer FLOPs, despite the additional computational overhead. Additionally WORM pruned models lose less accuracy during pruning and recover accuracy faster, improving the robustness of the model. Furthermore, WORM is also able to generalize the Early Bird hypothesis reasonably well to larger models such as transformers, displaying its flexibility to adapt to various architectures.
Abstract（参考訳）: Lottery Ticket仮説は、未学習の高密度ネットワークに宝くじと呼ばれる理想的なスパースサブネットワークが存在することを示唆している。 Early Bird仮説は、モデルのサブネットワーク内の収束を検出するためにサブネットワーク間の距離という新しい概念を用いて、畳み込みニューラルネットワークでこれらの当選抽選チケットを見つける効率的なアルゴリズムを提案する。しかし、この手法は探索の終わり近くで重要でないニューロンの変動しないグループを見落としている。 WORMは、これらの静的なグループを利用して勾配を計算し、モデルが他のニューロンに頼らざるを得ないようにする手法である。実験の結果、WORMはより高速なチケット識別トレーニングを実現し、計算オーバーヘッドの増大にもかかわらずFLOPを少なくすることがわかった。さらに、WORMプルーンドモデルでは、プルーニング中の精度が低下し、精度が向上し、モデルの堅牢性が向上する。さらに、WORMはEarly Bird仮説をトランスフォーマーのようなより大きなモデルに合理的に一般化することができ、様々なアーキテクチャに適応する柔軟性を示している。

関連論文リスト

Discovering Physics-Informed Neural Networks Model for Solving Partial Differential Equations through Evolutionary Computation [5.8407437499182935]
本稿では,より高い近似精度と高速収束率を持つPINNモデルの探索を目的とした進化的計算手法を提案する。実験では、ベイズ最適化、ランダム探索、進化を通じて探索される異なるモデルの性能を比較して、クライン=ゴルドン方程式、バーガー方程式、ラム方程式を解く。
論文参考訳（メタデータ） (2024-05-18T07:32:02Z)
Improving Out-of-Distribution Generalization of Neural Rerankers with Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文参考訳（メタデータ） (2023-02-13T18:42:17Z)
Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文参考訳（メタデータ） (2022-09-26T17:59:58Z)
Look beyond labels: Incorporating functional summary information in Bayesian neural networks [11.874130244353253]
予測確率に関する要約情報を組み込むための簡単な手法を提案する。利用可能な要約情報は、拡張データとして組み込まれ、ディリクレプロセスでモデル化される。本稿では,タスクの難易度やクラス不均衡をモデルに示す方法について述べる。
論文参考訳（メタデータ） (2022-07-04T07:06:45Z)
Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文参考訳（メタデータ） (2022-03-08T18:06:26Z)
Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文参考訳（メタデータ） (2021-10-12T01:11:07Z)
Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2021-06-15T06:39:13Z)
A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文参考訳（メタデータ） (2020-10-27T17:56:14Z)
Research on a New Convolutional Neural Network Model Combined with Random Edges Adding [10.519799195357209]
畳み込みニューラルネットワークモデルの性能向上のために,ランダムエッジ付加アルゴリズムを提案する。シミュレーションの結果, モデル認識精度とトレーニング収束速度は, 再構成モデルのランダムエッジ付加により大幅に向上することがわかった。
論文参考訳（メタデータ） (2020-03-17T16:17:55Z)
PushNet: Efficient and Adaptive Neural Message Passing [1.9121961872220468]
メッセージパッシングニューラルネットワークは、最近、グラフ上での表現学習に対する最先端のアプローチへと進化した。既存のメソッドは、複数のラウンドですべてのエッジに沿って同期メッセージパッシングを実行する。我々は、収束するまで最も関連性の高いエッジに沿ってのみ情報をプッシュする、新しい非同期メッセージパッシングアプローチについて検討する。
論文参考訳（メタデータ） (2020-03-04T18:15:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。