論文の概要: Projection-Free CNN Pruning via Frank-Wolfe with Momentum: Sparser Models with Less Pretraining
- arxiv url: http://arxiv.org/abs/2512.01147v1
- Date: Sun, 30 Nov 2025 23:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.602947
- Title: Projection-Free CNN Pruning via Frank-Wolfe with Momentum: Sparser Models with Less Pretraining
- Title(参考訳): モーメント付きフランクウルフによるプロジェクションフリーCNNプルーニング:プレトレーニングの少ないスペーサーモデル
- Authors: Hamza ElMokhtar Shili, Natasha Patnaik, Isabelle Ruble, Kathryn Jarjoura, Daniel Suarez Aguirre,
- Abstract要約: ロータリー・チケット仮説」は、比較的よく機能する大規模事前学習ネットワーク内に小さなサブネットワークが存在することを示唆している。
我々は、MNISTで訓練されたCNN上で、単純な等級ベースプルーニング、フランク・ウルフスタイルプルーニングスキーム、および運動量を持つFW法を比較した。
運動量を持つFWは、元の高密度モデルよりもスペーサーであり、より正確であるプルーニングネットワークを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate algorithmic variants of the Frank-Wolfe (FW) optimization method for pruning convolutional neural networks. This is motivated by the "Lottery Ticket Hypothesis", which suggests the existence of smaller sub-networks within larger pre-trained networks that perform comparatively well (if not better). Whilst most literature in this area focuses on Deep Neural Networks more generally, we specifically consider Convolutional Neural Networks for image classification tasks. Building on the hypothesis, we compare simple magnitude-based pruning, a Frank-Wolfe style pruning scheme, and an FW method with momentum on a CNN trained on MNIST. Our experiments track test accuracy, loss, sparsity, and inference time as we vary the dense pre-training budget from 1 to 10 epochs. We find that FW with momentum yields pruned networks that are both sparser and more accurate than the original dense model and the simple pruning baselines, while incurring minimal inference-time overhead in our implementation. Moreover, FW with momentum reaches these accuracies after only a few epochs of pre-training, indicating that full pre-training of the dense model is not required in this setting.
- Abstract(参考訳): 畳み込みニューラルネットワークのプルーニングのためのFW最適化手法のアルゴリズム的変種について検討する。
これは"Lottery Ticket hypothesis"によって動機付けられており、これは、より大規模なトレーニング済みネットワーク内で、比較的よく(より良くないとしても)機能する小さなサブネットワークの存在を示唆している。
この領域のほとんどの文献は、より一般的にディープニューラルネットワークに焦点を当てているが、画像分類タスクのための畳み込みニューラルネットワークを特に検討している。
この仮説に基づいて,MNISTで訓練されたCNN上での簡易等級プルーニング,フランク・ウルフ式プルーニング,FW法の比較を行った。
実験では,高密度プレトレーニング予算を1~10エポックに変化させるため,テスト精度,損失,スパーシリティ,推測時間を測定した。
モーメントを持つFWは、従来の高密度モデルや単純なプルーニングベースラインよりもスペーサーで精度の高いプルーニングネットワークを出力し、実装において最小の推論時間オーバーヘッドを発生させる。
さらに、運動量を持つFWは、数回の事前学習の後、これらの精度に達するため、この設定では高密度モデルの完全な事前学習は不要である。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - A Framework for Neural Network Pruning Using Gibbs Distributions [34.0576955010317]
Gibbs pruningは、ニューラルネットワークのプルーニングメソッドを表現および設計するための新しいフレームワークである。
学習したウェイトとプルーニングマスクが互いに順応するように、同時にネットワークを訓練し訓練することができる。
我々は、CIFAR-10データセットでResNet-56を刈り取るための、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2020-06-08T23:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。