論文の概要: Optimizing Gradient-driven Criteria in Network Sparsity: Gradient is All
You Need
- arxiv url: http://arxiv.org/abs/2201.12826v1
- Date: Sun, 30 Jan 2022 14:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 06:17:48.471236
- Title: Optimizing Gradient-driven Criteria in Network Sparsity: Gradient is All
You Need
- Title(参考訳): ネットワークスパーシティにおける勾配駆動基準の最適化 - 勾配だけで十分
- Authors: Yuxin Zhang, Mingbao Lin, Mengzhao Chen, Zihan Xu, Fei Chao, Yunhan
Shen, Ke Li, Yongjian Wu, Rongrong Ji
- Abstract要約: 勾配駆動のスパーシリティは、ネットワークの複雑さを減らすために使用される。
ウェイト独立は、ウェイトが相互に影響を受けているという事実とは対照的である。
本稿では、この独立パラドックスを解くことにより、勾配駆動空間(OptG)をさらに最適化することを提案する。
- 参考スコア(独自算出の注目度): 74.58939318994746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network sparsity receives popularity mostly due to its capability to reduce
the network complexity. Extensive studies excavate gradient-driven sparsity.
Typically, these methods are constructed upon premise of weight independence,
which however, is contrary to the fact that weights are mutually influenced.
Thus, their performance remains to be improved. In this paper, we propose to
further optimize gradient-driven sparsity (OptG) by solving this independence
paradox. Our motive comes from the recent advances on supermask training which
shows that sparse subnetworks can be located in a randomly initialized network
by simply updating mask values without modifying any weight. We prove that
supermask training is to accumulate the weight gradients and can partly solve
the independence paradox. Consequently, OptG integrates supermask training into
gradient-driven sparsity, and a specialized mask optimizer is designed to solve
the independence paradox. Experiments show that OptG can well surpass many
existing state-of-the-art competitors. Our code is available at
\url{https://github.com/zyxxmu/OptG}.
- Abstract(参考訳): ネットワークスパーシティは、ネットワークの複雑さを減らす能力のために人気を集めている。
広範な研究は勾配駆動のスパーシティを掘削する。
通常、これらの方法は重量独立の前提で構築されるが、重量が相互に影響されているという事実とは反対である。
そのため、その性能は改善され続けている。
本稿では,この独立パラドックスを解いて,勾配駆動スパーシティ(optg)をさらに最適化する。
我々の動機は、マスクの値を変更せずに簡単に更新することで、スパースサブネットワークをランダムに初期化ネットワークに配置できることを示す、最近のスーパーマスクトレーニングの進歩に由来する。
我々は超マスクトレーニングが重み勾配を蓄積することであり、独立パラドックスを部分的に解決できることを証明する。
その結果、OptGは超マスクトレーニングを勾配駆動のスパーシリティに統合し、独立パラドックスを解決するために特殊マスクオプティマイザを設計した。
実験によると、OptGは既存の最先端の競合他社をはるかに上回っている。
我々のコードは \url{https://github.com/zyxxmu/OptG} で入手できる。
関連論文リスト
- Leaky ReLUs That Differ in Forward and Backward Pass Facilitate Activation Maximization in Deep Neural Networks [0.022344294014777957]
アクティベーション(AM)は最適な入力を生成し、トレーニングされたディープニューラルネットワークで高い応答をトリガーする機能を明らかにする。
本稿では,ReLU や Leaky ReLU を含む単純な関数に対して,AM が最適入力を生成できないことを示す。
本稿では,後進パスに負の勾配を持つLeaky ReLUを用いて,前進パスに,元の(通常ゼロの)傾斜を保ちながら,後方パスに高い負の勾配を持つ解を提案する。
論文 参考訳(メタデータ) (2024-10-22T12:38:39Z) - MaxQ: Multi-Axis Query for N:M Sparsity Network [16.033223841268747]
MaxQは様々なコンピュータビジョンタスクにおいて、多様なCNNアーキテクチャで一貫した改善を実現している。
実験の結果、MaxQはImageNetで74.6%の精度を達成でき、最先端よりも2.8%以上改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-12T08:28:29Z) - ELSA: Partial Weight Freezing for Overhead-Free Sparse Network
Deployment [95.04504362111314]
本稿では,異なるレベルの空間に容易に展開可能な深層ネットワーク構築のための実用的ソリューションであるELSAを提案する。
中心となる考え方は、重みの適切なサブセットとして、1つの高密度ネットワークに1つ以上のスパースネットワークを埋め込むことである。
予測時には、任意のスパースモデルを、予め定義されたマスクに従って単純に重みをゼロにすることができる。
論文 参考訳(メタデータ) (2023-12-11T22:44:05Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - Signing the Supermask: Keep, Hide, Invert [0.9475039534437331]
ニューラルネットワークの初期重みを落とすか、それぞれの符号を反転させる新しいアプローチを提案する。
我々は,様々なベースラインモデルと過去のモデルとをマッチングまたはオーバーしながら,最大99%のプルーニング率を達成する。
論文 参考訳(メタデータ) (2022-01-31T17:17:37Z) - Automatic Sparse Connectivity Learning for Neural Networks [4.875787559251317]
十分に設計されたスパースニューラルネットワークは、FLOPや計算資源を大幅に削減する可能性がある。
本研究では,スパース接続性学習(Sparse Connectivity Learning)という新しい自動プルーニング手法を提案する。
SCLによって訓練された深層学習モデルは、SOTAの人間設計および自動プルーニング手法を、疎性、正確性、FLOPs削減で上回っている。
論文 参考訳(メタデータ) (2022-01-13T15:12:48Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。