論文の概要: Compression-aware Training of Neural Networks using Frank-Wolfe
- arxiv url: http://arxiv.org/abs/2205.11921v1
- Date: Tue, 24 May 2022 09:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:20:17.191216
- Title: Compression-aware Training of Neural Networks using Frank-Wolfe
- Title(参考訳): Frank-Wolfe を用いたニューラルネットワークの圧縮学習
- Authors: Max Zimmer and Christoph Spiegel and Sebastian Pokutta
- Abstract要約: ニューラルネットワークのプルーニングアプローチは、プルーニングによるパフォーマンス劣化を補うために再トレーニングに依存するか、トレーニングを通じて特定のスパースソリューションに収束する強いバイアスを誘発する。
第3のパラダイムは、単一の濃密なトレーニングランから幅広い圧縮比を得ると同時に、再トレーニングを回避している。
Pokutta et al. (2020) と Miao et al. (2022) の最近の研究は、Frank-Wolfe (SFW) アルゴリズムが圧縮に頑健な最先端モデルのトレーニングに特に適していることを示唆している。
我々は、$k$サポートされたノルムボール制約を活用することを提案し、Miaoの結果よりも大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 17.5320459412718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing Neural Network pruning approaches either rely on retraining to
compensate for pruning-caused performance degradation or they induce strong
biases to converge to a specific sparse solution throughout training. A third
paradigm obtains a wide range of compression ratios from a single dense
training run while also avoiding retraining. Recent work of Pokutta et al.
(2020) and Miao et al. (2022) suggests that the Stochastic Frank-Wolfe (SFW)
algorithm is particularly suited for training state-of-the-art models that are
robust to compression. We propose leveraging $k$-support norm ball constraints
and demonstrate significant improvements over the results of Miao et al. (2022)
in the case of unstructured pruning. We also extend these ideas to the
structured pruning domain and propose novel approaches to both ensure
robustness to the pruning of convolutional filters as well as to low-rank
tensor decompositions of convolutional layers. In the latter case, our approach
performs on-par with nuclear-norm regularization baselines while requiring only
half of the computational resources. Our findings also indicate that the
robustness of SFW-trained models largely depends on the gradient rescaling of
the learning rate and we establish a theoretical foundation for that practice.
- Abstract(参考訳): 既存のニューラルネットワークプルーニングアプローチの多くは、プルーニングによるパフォーマンス劣化を補うために再トレーニングに依存するか、トレーニングを通じて特定のスパースソリューションに収束する強いバイアスを誘発する。
第3のパラダイムは、再トレーニングを避けながら、単一の密集したトレーニング実行から幅広い圧縮比を得る。
Pokutta et al. (2020) と Miao et al. (2022) の最近の研究は、Stochastic Frank-Wolfe (SFW) アルゴリズムが圧縮に頑健な最先端モデルのトレーニングに特に適していることを示している。
我々は,$k$をサポートするノームボールの制約を活用し,非構造的刈り取りの場合のmiao et al. (2022) の結果に対して有意な改善を示す。
また,これらの概念を構造的プルーニング領域にまで拡張し,畳み込みフィルタのプルーニングに対するロバスト性と畳み込み層の低ランクテンソル分解性を保証するための新しいアプローチを提案する。
後者の場合,本手法は計算資源の半分しか必要とせず,核ノルム正規化ベースラインと同等に動作する。
また,SFW学習モデルのロバスト性は学習率の勾配再スケーリングに大きく依存していることが示唆された。
関連論文リスト
- Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition [11.399520888150468]
ローランド誘導訓練(LoRITa)と呼ばれる理論的修正手法を提案する。
LoRITaは線形層を構成することで低ランク化を促進し、特異値切り込みを用いて圧縮する。
我々は,完全連結ネットワーク上でのMNIST,視覚変換器上でのCIFAR10,畳み込みニューラルネットワーク上でのCIFAR10/100と画像ネットを用いたアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T00:58:23Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Riemannian Low-Rank Model Compression for Federated Learning with
Over-the-Air Aggregation [2.741266294612776]
低ランクモデル圧縮は、機械学習モデルを訓練する際の計算負荷を減らすために広く使われている技法である。
既存の圧縮技術は、連合学習システムにおける効率の良いオーバー・ザ・エア(OTA)アグリゲーションには直接適用できない。
低ランク制約を緩和しないFLにおける低ランクモデル圧縮のための新しい多様体最適化法を提案する。
論文 参考訳(メタデータ) (2023-06-04T18:32:50Z) - Robust low-rank training via approximate orthonormal constraints [2.519906683279153]
低ランク行列多様体上でネットワークの重みを維持する頑健な低ランク学習アルゴリズムを導入する。
その結果, モデル精度を損なうことなく, トレーニングコストと推論コストを低減し, 良好な条件設定を実現し, 対向ロバスト性を向上する。
論文 参考訳(メタデータ) (2023-06-02T12:22:35Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Learning Robust Kernel Ensembles with Kernel Average Pooling [3.6540368812166872]
本稿では,階層活性化テンソルのカーネル次元に沿って平均フィルタを適用するニューラルネットワーク構築ブロックであるKernel Average Pooling(KAP)を紹介する。
類似機能を持つカーネルのアンサンブルは、KAPを装備した畳み込みニューラルネットワークにおいて自然に出現し、バックプロパゲーションで訓練されることを示す。
論文 参考訳(メタデータ) (2022-09-30T19:49:14Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - A Tunable Robust Pruning Framework Through Dynamic Network Rewiring of
DNNs [8.597091257152567]
敵攻撃に対して頑健なプルーンドディープニューラルネットワーク(DNN)モデルを生成する動的ネットワークリウィリング(DNR)手法を提案する。
我々の実験により,DNRは,最先端の代替手段によって達成できるものよりも,クリーンで対角的な画像分類性能の圧縮モデルを一貫して見出すことができた。
論文 参考訳(メタデータ) (2020-11-03T19:49:00Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。