論文の概要: Find A Winning Sign: Sign Is All We Need to Win the Lottery
- arxiv url: http://arxiv.org/abs/2504.05357v1
- Date: Mon, 07 Apr 2025 09:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:08.892979
- Title: Find A Winning Sign: Sign Is All We Need to Win the Lottery
- Title(参考訳): 勝利のサインを見つける: 勝たなきゃならないサイン
- Authors: Junghun Oh, Sungyong Baik, Kyoung Mu Lee,
- Abstract要約: 既存のIP手法によって訓練されたスパースネットワークは,パラメータ記号と正規化層パラメータが保存されている場合,アトラクションの基盤を保持することができることを示す。
本手法により訓練されたスパースネットワークと正規化層パラメータとの線形経路における高い誤差障壁を防止し, 正規化層パラメータへの依存を緩和する。
- 参考スコア(独自算出の注目度): 52.63674911541416
- License:
- Abstract: The Lottery Ticket Hypothesis (LTH) posits the existence of a sparse subnetwork (a.k.a. winning ticket) that can generalize comparably to its over-parameterized counterpart when trained from scratch. The common approach to finding a winning ticket is to preserve the original strong generalization through Iterative Pruning (IP) and transfer information useful for achieving the learned generalization by applying the resulting sparse mask to an untrained network. However, existing IP methods still struggle to generalize their observations beyond ad-hoc initialization and small-scale architectures or datasets, or they bypass these challenges by applying their mask to trained weights instead of initialized ones. In this paper, we demonstrate that the parameter sign configuration plays a crucial role in conveying useful information for generalization to any randomly initialized network. Through linear mode connectivity analysis, we observe that a sparse network trained by an existing IP method can retain its basin of attraction if its parameter signs and normalization layer parameters are preserved. To take a step closer to finding a winning ticket, we alleviate the reliance on normalization layer parameters by preventing high error barriers along the linear path between the sparse network trained by our method and its counterpart with initialized normalization layer parameters. Interestingly, across various architectures and datasets, we observe that any randomly initialized network can be optimized to exhibit low error barriers along the linear path to the sparse network trained by our method by inheriting its sparsity and parameter sign information, potentially achieving performance comparable to the original. The code is available at https://github.com/JungHunOh/AWS\_ICLR2025.git
- Abstract(参考訳): Lottery Ticket hypothesis (LTH) は、スクラッチからトレーニングした場合に過度にパラメータ化されたサブネット(すなわち当選チケット)を一般化できるスパースサブネットワークの存在を示唆している。
入賞券を見つけるための一般的なアプローチは、イテレーティブ・プルーニング(IP)を通じて元の強一般化を保ち、その結果のスパースマスクをトレーニングされていないネットワークに適用することで学習された一般化を達成するのに有用な転送情報を保持することである。
しかし、既存のIP手法は、アドホックな初期化や小規模アーキテクチャやデータセット以外の観察を一般化するのに依然として苦労している。
本稿では、パラメータ記号の構成が、任意のランダムに初期化されたネットワークに一般化するための有用な情報を伝達する上で重要な役割を担っていることを示す。
線形モード接続解析により、パラメータ記号と正規化層パラメータが保存されている場合、既存のIP法で訓練されたスパースネットワークがアトラクションの基盤を保持することができる。
本手法により訓練されたスパースネットワークと初期化正規化層パラメータとの線形経路における高い誤差障壁を防止し, 正規化層パラメータへの依存を緩和する。
興味深いことに、様々なアーキテクチャやデータセットを通して、任意のランダムに初期化されたネットワークは、その疎度とパラメータのサイン情報を継承することで、我々の方法で訓練されたスパースネットワークへの線形経路に沿った低エラー障壁を示すように最適化でき、元のものと同等の性能を達成することができる。
コードはhttps://github.com/JungHunOh/AWS\_ICLR2025.gitで公開されている。
関連論文リスト
- Playing the Lottery With Concave Regularizers for Sparse Trainable Neural Networks [10.48836159692231]
我々は宝くじを弾くための新しい方法のクラスを提案する。
鍵となる点は、緩和された二元マスクの空間性を促進するために凹凸正則化を使うことである。
提案手法は,最先端のアルゴリズムの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-01-19T18:05:13Z) - Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning
Ticket's Mask? [40.52143582292875]
トレーニング終了後に発見されたIMPマスクは,所望のサブ空間の同一性を伝達することを示す。
また,SGDは強靭性のため,この情報を活用できることを示す。
総合的に,優勝チケットの存在を軽視する動きが進んでいる。
論文 参考訳(メタデータ) (2022-10-06T16:50:20Z) - Sparse tree-based initialization for neural networks [0.0]
専用ニューラルネットワーク(NN)アーキテクチャは、画像のCNNやテキストのRNNといった特定のデータタイプを処理可能であることを示す。
本研究では,(潜在的に深い)多層パーセプトロン(MLP)の新しい手法を提案する。
NNトレーニング中に新しい初期化器が暗黙の正規化を行うことを示すとともに,第1層がスパース機能抽出器として機能することを強調する。
論文 参考訳(メタデータ) (2022-09-30T07:44:03Z) - Lottery Tickets on a Data Diet: Finding Initializations with Sparse
Trainable Networks [40.55816472416984]
反復トレーニング(IMP; Frankle et al.)に関する目覚ましい観察は、x2014x2014の数百ステップの密集した後に、x$である。
本研究では、この事前学習の初期段階が、データとネットワークの両方に優れたIMPをもたらすかを理解することを目的とする。
損失景観密度ネットワークの新たな特性を同定し,性能の予測を行う。
論文 参考訳(メタデータ) (2022-06-02T20:04:06Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。