論文の概要: Explore and Establish Synergistic Effects Between Weight Pruning and Coreset Selection in Neural Network Training
- arxiv url: http://arxiv.org/abs/2511.09901v2
- Date: Mon, 17 Nov 2025 05:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.406553
- Title: Explore and Establish Synergistic Effects Between Weight Pruning and Coreset Selection in Neural Network Training
- Title(参考訳): ニューラルネットワーク学習における重み付けとコアセット選択の相乗効果の探索と確立
- Authors: Weilin Wan, Fan Yi, Weizhong Zhang, Quan Zhou, Cheng Jin,
- Abstract要約: 軽量プルーニングとコアセット選択は、計算効率を向上させるために提案される2つの新しいパラダイムである。
我々は,重み付けとコアセット選択を交互に行う同時重み付け機構(SWaST)を開発し,訓練における相乗効果を確立する。
実験ではプルーニングとコアセットの選択の間に様々なプルーンレートとコアセットサイズの間で強い相乗効果が示され、精度は最大で17.83%向上し、10%から90%のFLOPが減少する。
- 参考スコア(独自算出の注目度): 22.102431470440322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep neural networks rely heavily on massive model weights and training samples, incurring substantial computational costs. Weight pruning and coreset selection are two emerging paradigms proposed to improve computational efficiency. In this paper, we first explore the interplay between redundant weights and training samples through a transparent analysis: redundant samples, particularly noisy ones, cause model weights to become unnecessarily overtuned to fit them, complicating the identification of irrelevant weights during pruning; conversely, irrelevant weights tend to overfit noisy data, undermining coreset selection effectiveness. To further investigate and harness this interplay in deep learning, we develop a Simultaneous Weight and Sample Tailoring mechanism (SWaST) that alternately performs weight pruning and coreset selection to establish a synergistic effect in training. During this investigation, we observe that when simultaneously removing a large number of weights and samples, a phenomenon we term critical double-loss can occur, where important weights and their supportive samples are mistakenly eliminated at the same time, leading to model instability and nearly irreversible degradation that cannot be recovered in subsequent training. Unlike classic machine learning models, this issue can arise in deep learning due to the lack of theoretical guarantees on the correctness of weight pruning and coreset selection, which explains why these paradigms are often developed independently. We mitigate this by integrating a state preservation mechanism into SWaST, enabling stable joint optimization. Extensive experiments reveal a strong synergy between pruning and coreset selection across varying prune rates and coreset sizes, delivering accuracy boosts of up to 17.83% alongside 10% to 90% FLOPs reductions.
- Abstract(参考訳): 現代のディープニューラルネットワークは、膨大なモデルの重み付けとトレーニングサンプルに大きく依存しており、かなりの計算コストを発生させている。
軽量プルーニングとコアセット選択は、計算効率を向上させるために提案される2つの新しいパラダイムである。
本稿では, 余剰重量とトレーニングサンプルとの相互作用を, 余剰試料, 特にノイズのある試料, モデル重量が適合するために過度に過度に過度に調整され, 刈り込み時の無関係重量の識別が複雑になり, 逆に, 無関係重量はノイズデータに過度に適合し, コアセット選択の有効性を損なう傾向にあることを示す。
深層学習におけるこの相互作用をさらに調べ,活用するために,重み付けとコアセット選択を交互に行う同時重み付け機構(SWaST)を開発し,学習における相乗効果を確立する。
本研究は,多数の重量と試料を同時に除去する場合,重要な重量と支持試料が同時に誤って除去され,その後の訓練では回収できないモデル不安定性とほぼ不可逆的な劣化が生じるという,臨界二重損失現象が生じることを観察する。
古典的な機械学習モデルとは異なり、この問題はウェイトプルーニングとコアセット選択の正確性に関する理論的保証が欠如しているため、ディープラーニングで発生する可能性がある。
我々は、状態保存機構をSWaSTに統合し、安定した関節最適化を可能にすることにより、これを緩和する。
大規模な実験ではプルーニングとコアセットの選択の間に様々なプルーンレートとコアセットサイズの間で強い相乗効果が示され、精度は最大で17.83%向上し、10%から90%のFLOPが減少する。
関連論文リスト
- Pay Attention to Small Weights [26.613296190219103]
NanoADAMは、微調整中に小さなマグニチュードのみを動的に更新する。
これは、事前訓練中に学んだ重要な特徴をエンコードする可能性が高い、大きなマグニチュードの重量を保存する。
論文 参考訳(メタデータ) (2025-06-26T15:22:55Z) - Deep Weight Factorization: Sparse Learning Through the Lens of Artificial Symmetries [10.209740962369453]
スパース正規化技術は機械学習において十分に確立されているが、ニューラルネットワークへの応用は依然として難しい。
期待できる代替手段として、浅い重み分解があり、そこでは重みが2つの要因に分断され、$L$penalized Neural Networkの最適化が可能になる。
本研究では,2つ以上の既存手法に微分因子を付加し,重み分解を導入する。
論文 参考訳(メタデータ) (2025-02-04T17:12:56Z) - Neural Importance Sampling for Rapid and Reliable Gravitational-Wave
Inference [59.040209568168436]
まず、ニューラルネットワークを用いてベイズ後部への高速な提案を行い、その基礎となる可能性と事前に基づいて重み付けを行う。
本発明は,(1)ネットワーク不正確性のない修正後部,(2)提案案の評価と故障事例の同定のための性能診断(サンプル効率),(3)ベイズ証拠の偏りのない推定を提供する。
LIGOとVirgoで観測された42個のブラックホールをSEOBNRv4PHMとIMRPhenomHMXP波形モデルで解析した。
論文 参考訳(メタデータ) (2022-10-11T18:00:02Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。