論文の概要: Finding Stable Subnetworks at Initialization with Dataset Distillation
- arxiv url: http://arxiv.org/abs/2503.17905v1
- Date: Sun, 23 Mar 2025 02:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:51.061774
- Title: Finding Stable Subnetworks at Initialization with Dataset Distillation
- Title(参考訳): データセット蒸留による初期化時の安定サブネットの発見
- Authors: Luke McDermott, Rahul Parhi,
- Abstract要約: 本研究は,イテレーティブ・マグニチュード・プルーニングのインナーループにおける蒸留データを用いて,初期化時にスパース・トレーニング可能なワークを創出する。
提案アルゴリズムは,ResNet-18およびCIFAR-10上での従来の宝くじの巻き戻し性能と一致する。
- 参考スコア(独自算出の注目度): 9.254047358707016
- License:
- Abstract: Recent works have shown that Dataset Distillation, the process for summarizing the training data, can be leveraged to accelerate the training of deep learning models. However, its impact on training dynamics, particularly in neural network pruning, remains largely unexplored. In our work, we use distilled data in the inner loop of iterative magnitude pruning to produce sparse, trainable subnetworks at initialization -- more commonly known as lottery tickets. While using 150x less training points, our algorithm matches the performance of traditional lottery ticket rewinding on ResNet-18 & CIFAR-10. Previous work highlights that lottery tickets can be found when the dense initialization is stable to SGD noise (i.e. training across different ordering of the data converges to the same minima). We extend this discovery, demonstrating that stable subnetworks can exist even within an unstable dense initialization. In our linear mode connectivity studies, we find that pruning with distilled data discards parameters that contribute to the sharpness of the loss landscape. Lastly, we show that by first generating a stable sparsity mask at initialization, we can find lottery tickets at significantly higher sparsities than traditional iterative magnitude pruning.
- Abstract(参考訳): 近年の研究では、ディープラーニングモデルのトレーニングを加速するために、トレーニングデータを要約するプロセスであるデータセット蒸留を活用できることが示されている。
しかし、特にニューラルネットワークのプルーニングにおけるトレーニングダイナミクスへの影響は、まだ明らかにされていない。
我々の研究では、反復等級プルーニングのインナーループで蒸留データを使用して、初期化時にスパースでトレーニング可能なサブネット - 一般的には宝くじとして知られている -- を生成します。
本稿では,ResNet-18およびCIFAR-10上での従来の宝くじの巻き戻し性能に比較した。
これまでの研究では、密集した初期化がSGDノイズに安定であるときに宝くじが見つかることが強調されていた(つまり、データの異なる順序でのトレーニングは、同じミニマに収束する)。
この発見を拡張し、不安定な高密度初期化においても安定したサブネットワークが存在することを示す。
線形モード接続研究において、蒸留したデータによる刈り取りは、損失景観の鋭さに寄与するパラメータを破棄することがわかった。
最後に,初期化時に安定なスパシティマスクを最初に生成することにより,従来のイテレーティブ・マグニチュード・プルーニングよりもかなり高い間隔で宝くじが見つかることを示す。
関連論文リスト
- Finding Lottery Tickets in Vision Models via Data-driven Spectral Foresight Pruning [14.792099973449794]
本稿では,スパースネットワークのトレーニングダイナミクスと高密度ネットワークのトレーニングダイナミクスを一致させるアルゴリズムを提案する。
NTKスペクトルにおける通常無視されるデータ依存成分がどのように考慮されるかを示す。
パスeXclusion(PX)は、高頻度でも宝くじを見つけることができる。
論文 参考訳(メタデータ) (2024-06-03T22:19:42Z) - Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Lottery Tickets on a Data Diet: Finding Initializations with Sparse
Trainable Networks [40.55816472416984]
反復トレーニング(IMP; Frankle et al.)に関する目覚ましい観察は、x2014x2014の数百ステップの密集した後に、x$である。
本研究では、この事前学習の初期段階が、データとネットワークの両方に優れたIMPをもたらすかを理解することを目的とする。
損失景観密度ネットワークの新たな特性を同定し,性能の予測を行う。
論文 参考訳(メタデータ) (2022-06-02T20:04:06Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Rare Gems: Finding Lottery Tickets at Initialization [21.130411799740532]
大規模なニューラルネットワークは、元のサイズのごく一部に切断することができる。
トレーニング可能なネットワークを見つけるための現在のアルゴリズムは、単純なベースライン比較に失敗する。
単純なベースラインよりも正確性を高めるために訓練する宝くじを見つけることは、未解決の問題である。
論文 参考訳(メタデータ) (2022-02-24T10:28:56Z) - Good Students Play Big Lottery Better [84.6111281091602]
宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
論文 参考訳(メタデータ) (2021-01-08T23:33:53Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Pruning neural networks without any data by iteratively conserving
synaptic flow [27.849332212178847]
ディープニューラルネットワークのパラメータを抽出することは、時間、記憶、エネルギーの潜在的な節約によって、大きな関心を集めている。
近年の研究では、高価なトレーニングとプルーニングサイクルを通じて、当選した宝くじやスパーストレーナーブルワークスの存在が特定されている。
我々は、理論駆動型アルゴリズム設計を通じて、この問題に対する肯定的な回答を提供する。
論文 参考訳(メタデータ) (2020-06-09T19:21:57Z) - JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method [92.15895515035795]
我々は、"4,372"イメージと"1.51万"アノテーションを含む、新しい大規模非制約クラウドカウントデータセット(JHU-CROWD++)を導入する。
本稿では, 残差誤差推定により, 群集密度マップを段階的に生成する新しい群集カウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T14:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。