論文の概要: Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization
- arxiv url: http://arxiv.org/abs/2406.01755v1
- Date: Mon, 3 Jun 2024 19:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:02:09.584499
- Title: Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization
- Title(参考訳): スペーサー、より良く、より深く、より強く:厳密な直交初期化によるスパーストレーニングの改善
- Authors: Aleksandra Irena Nowak, Łukasz Gniecki, Filip Szatkowski, Jacek Tabor,
- Abstract要約: 静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
- 参考スコア(独自算出の注目度): 49.06421851486415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Static sparse training aims to train sparse models from scratch, achieving remarkable results in recent years. A key design choice is given by the sparse initialization, which determines the trainable sub-network through a binary mask. Existing methods mainly select such mask based on a predefined dense initialization. Such an approach may not efficiently leverage the mask's potential impact on the optimization. An alternative direction, inspired by research into dynamical isometry, is to introduce orthogonality in the sparse subnetwork, which helps in stabilizing the gradient signal. In this work, we propose Exact Orthogonal Initialization (EOI), a novel sparse orthogonal initialization scheme based on composing random Givens rotations. Contrary to other existing approaches, our method provides exact (not approximated) orthogonality and enables the creation of layers with arbitrary densities. We demonstrate the superior effectiveness and efficiency of EOI through experiments, consistently outperforming common sparse initialization techniques. Our method enables training highly sparse 1000-layer MLP and CNN networks without residual connections or normalization techniques, emphasizing the crucial role of weight initialization in static sparse training alongside sparse mask selection. The code is available at https://github.com/woocash2/sparser-better-deeper-stronger
- Abstract(参考訳): 静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
鍵となる設計選択はスパース初期化によって与えられ、バイナリマスクを介してトレーニング可能なサブネットワークを決定する。
既存の方法は、あらかじめ定義された密接な初期化に基づいて、主にそのようなマスクを選択する。
このようなアプローチは、最適化に対するマスクの潜在的影響を効果的に活用できないかもしれない。
動的等尺性の研究にインスパイアされた別の方向は、勾配信号の安定化に役立つスパースサブネットワークに直交性を導入することである。
そこで本研究では,ランダムなアジェンダ回転の合成に基づく,新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
他の既存手法とは対照的に、我々の手法は正確な(近似されていない)直交性を提供し、任意の密度を持つ層の作成を可能にする。
実験によりEOIの優れた有効性と効率を実証し、共通のスパース初期化技術より一貫して優れていることを示す。
本手法は,スパルスマスク選択に伴う静的スパーストレーニングにおいて,重量初期化の重要な役割を強調し,残差接続や正規化を伴わない1000層MLPおよびCNNネットワークの高度スパース訓練を可能にする。
コードはhttps://github.com/woocash2/sparser-better-deeper-strongerで公開されている。
関連論文リスト
- What to Prune and What Not to Prune at Initialization [0.0]
トレーニング後のドロップアウトベースのアプローチは、高いスパシティを実現する。
ネットワークの計算コストのスケーリングに関しては,初期化プルーニングの方が有効だ。
目標は、パフォーマンスを維持しながら、より高い疎性を達成することです。
論文 参考訳(メタデータ) (2022-09-06T03:48:10Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Boosting Fast Adversarial Training with Learnable Adversarial
Initialization [79.90495058040537]
対人訓練(AT)は、対人訓練の例を活用することにより、モデルロバスト性を改善するのに有効であることが示されている。
トレーニング効率を向上させるため,高速AT法では1回だけ勾配を計算することにより高速勾配符号法(FGSM)が採用されている。
論文 参考訳(メタデータ) (2021-10-11T05:37:00Z) - Data-driven Weight Initialization with Sylvester Solvers [72.11163104763071]
本稿では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
論文 参考訳(メタデータ) (2021-05-02T07:33:16Z) - An Effective and Efficient Initialization Scheme for Training
Multi-layer Feedforward Neural Networks [5.161531917413708]
本稿では,有名なスタインの身元に基づく新しいネットワーク初期化手法を提案する。
提案したSteinGLM法は、ニューラルネットワークのトレーニングによく使われる他の一般的な手法よりもはるかに高速で高精度であることを示す。
論文 参考訳(メタデータ) (2020-05-16T16:17:37Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。