論文の概要: Sparse Training from Random Initialization: Aligning Lottery Ticket Masks using Weight Symmetry
- arxiv url: http://arxiv.org/abs/2505.05143v2
- Date: Tue, 10 Jun 2025 03:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.965933
- Title: Sparse Training from Random Initialization: Aligning Lottery Ticket Masks using Weight Symmetry
- Title(参考訳): ランダム初期化からのスパーストレーニング:軽量対称性を用いたロテリチケットマスクの配向
- Authors: Mohammed Adnan, Rohan Jain, Ekansh Sharma, Rahul Krishnan, Yani Ioannou,
- Abstract要約: Lottery Ticket hypothesis (LTH) は、非常に少ないパラメータを使用しながら、密度モデルと同じ一般化性能を達成するスパースLTHマスクとウェイトが存在することを示唆している。
近年の研究では、ランダム初期化からトレーニングされたニューラルネットワークが、同じ流域のモジュロ置換における解を見つけることが示唆されている。
我々は,異なるランダムイニトからスパーストレーニングを行う際に,LTHマスクを新しい最適化盆地に合わせるように変更することを提案する。
- 参考スコア(独自算出の注目度): 4.805964026801514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Lottery Ticket Hypothesis (LTH) suggests there exists a sparse LTH mask and weights that achieve the same generalization performance as the dense model while using significantly fewer parameters. However, finding a LTH solution is computationally expensive, and a LTH sparsity mask does not generalize to other random weight initializations. Recent work has suggested that neural networks trained from random initialization find solutions within the same basin modulo permutation, and proposes a method to align trained models within the same loss basin. We hypothesize that misalignment of basins is the reason why LTH masks do not generalize to new random initializations and propose permuting the LTH mask to align with the new optimization basin when performing sparse training from a different random init. We empirically show a significant increase in generalization when sparse training from random initialization with the permuted mask as compared to using the non-permuted LTH mask, on multiple datasets (CIFAR-10, CIFAR-100 and ImageNet) and models (VGG11, ResNet20 and ResNet50).
- Abstract(参考訳): Lottery Ticket hypothesis (LTH) は、非常に少ないパラメータを使用しながら、密度モデルと同じ一般化性能を達成するスパースLTHマスクとウェイトが存在することを示唆している。
しかし、LTH解の発見は計算コストが高く、LTH空間マスクは他のランダムウェイト初期化に一般化しない。
近年の研究では、ランダム初期化からトレーニングされたニューラルネットワークが、同じ流域内の解を見つけることを示唆し、同じ損失盆地内でトレーニングされたモデルを調整する方法を提案する。
そこで我々は,LTHマスクが新しいランダム初期化に一般化しない理由として,異なるランダムイニットからスパーストレーニングを行う際に,LTHマスクを新しい最適化盆地と整合させる方法を提案する。
複数のデータセット (CIFAR-10, CIFAR-100, ImageNet) とモデル (VGG11, ResNet20, ResNet50) で, 非置換LTHマスクと比較して, マスクによるランダム初期化からのスパーストレーニングにおいて, 一般化が顕著に増加したことを示す。
関連論文リスト
- Find A Winning Sign: Sign Is All We Need to Win the Lottery [52.63674911541416]
既存のIP手法によって訓練されたスパースネットワークは,パラメータ記号と正規化層パラメータが保存されている場合,アトラクションの基盤を保持することができることを示す。
本手法により訓練されたスパースネットワークと正規化層パラメータとの線形経路における高い誤差障壁を防止し, 正規化層パラメータへの依存を緩和する。
論文 参考訳(メタデータ) (2025-04-07T09:30:38Z) - Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Breaking through Deterministic Barriers: Randomized Pruning Mask
Generation and Selection [29.375460634415806]
我々は大きなモデルを訓練し、その冗長なニューロンや重みを刈り取ることで除去する。
このアプローチはGLUEから8つのデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-19T22:32:51Z) - Pruning at Initialization -- A Sketching Perspective [41.07083436560303]
初期化時にスパースマスクを見つけることは、効率的な行列乗算のために導入されたスケッチ問題と等価であることを示す。
我々は、スパースネットワークの探索がデータ独立であるかもしれないという過去の経験的証拠を理論的に正当化する。
論文 参考訳(メタデータ) (2023-05-27T19:22:25Z) - Effective Neural Network $L_0$ Regularization With BinMask [15.639601066641099]
簡単な定式化である BinMask が有効$L_0$正則化であることを示す。
我々は,BinMaskを特徴選択,ネットワーク分割,モデル正規化の3つのタスクで評価する。
論文 参考訳(メタデータ) (2023-04-21T20:08:57Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Probabilistic fine-tuning of pruning masks and PAC-Bayes self-bounded
learning [16.526326919313924]
本研究では, プルーニングマスクの損失を最適化することにより, プルーニングマスクの学習方法を検討する。
線形回帰の設定における誘導適応予測器のトレーニングダイナミクスを解析する。
PAC-Bayes一般化誤差境界は, 先行データと後続データとの間の特徴アライメントの変化の大きさによって制御されることを示す。
論文 参考訳(メタデータ) (2021-10-22T14:25:22Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。