論文の概要: Compression-aware Training of Neural Networks using Frank-Wolfe
- arxiv url: http://arxiv.org/abs/2205.11921v2
- Date: Wed, 14 Feb 2024 16:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 20:37:09.674503
- Title: Compression-aware Training of Neural Networks using Frank-Wolfe
- Title(参考訳): Frank-Wolfe を用いたニューラルネットワークの圧縮学習
- Authors: Max Zimmer and Christoph Spiegel and Sebastian Pokutta
- Abstract要約: 本稿では,フィルタプルーニングと低ランク行列分解に対するロバスト性を誘導しながら,高い性能のソリューションへの収束を促すフレームワークを提案する。
提案手法は,従来の圧縮対応手法よりも優れており,低ランク行列分解の場合,核ノルム正規化に基づく手法よりも計算資源が大幅に少ない。
- 参考スコア(独自算出の注目度): 27.69586583737247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing Neural Network pruning approaches rely on either retraining or
inducing a strong bias in order to converge to a sparse solution throughout
training. A third paradigm, 'compression-aware' training, aims to obtain
state-of-the-art dense models that are robust to a wide range of compression
ratios using a single dense training run while also avoiding retraining. We
propose a framework centered around a versatile family of norm constraints and
the Stochastic Frank-Wolfe (SFW) algorithm that encourage convergence to
well-performing solutions while inducing robustness towards convolutional
filter pruning and low-rank matrix decomposition. Our method is able to
outperform existing compression-aware approaches and, in the case of low-rank
matrix decomposition, it also requires significantly less computational
resources than approaches based on nuclear-norm regularization. Our findings
indicate that dynamically adjusting the learning rate of SFW, as suggested by
Pokutta et al. (2020), is crucial for convergence and robustness of SFW-trained
models and we establish a theoretical foundation for that practice.
- Abstract(参考訳): 既存のニューラルネットワークプルーニングアプローチの多くは、トレーニング全体を通じてスパースソリューションに収束するために、リトレーニングまたは強いバイアスの誘発に頼っている。
第3のパラダイムである'compression-aware'トレーニングは、再トレーニングを避けながら、単一の集中トレーニング実行を使用して、幅広い圧縮比に堅牢な最先端の高密度モデルを得ることを目的としている。
本稿では, コンボリューションフィルタのプルーニングと低ランク行列分解に対して頑健性を誘導しながら, 解の収束を促進する, 規範制約の多彩な族と確率的frank-wolfe (sfw) アルゴリズムに基づく枠組みを提案する。
本手法は,既存の圧縮認識手法よりも優れており,低ランク行列分解の場合,核ノルム正規化に基づく手法に比べて計算資源が大幅に少ない。
Pokutta et al. (2020) が示唆しているように, SFWの学習速度を動的に調整することは, SFW訓練モデルの収束と堅牢性に不可欠であり, その実践の理論的基盤を確立している。
関連論文リスト
- Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition [11.399520888150468]
ローランド誘導訓練(LoRITa)と呼ばれる理論的修正手法を提案する。
LoRITaは線形層を構成することで低ランク化を促進し、特異値切り込みを用いて圧縮する。
我々は,完全連結ネットワーク上でのMNIST,視覚変換器上でのCIFAR10,畳み込みニューラルネットワーク上でのCIFAR10/100と画像ネットを用いたアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T00:58:23Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Riemannian Low-Rank Model Compression for Federated Learning with
Over-the-Air Aggregation [2.741266294612776]
低ランクモデル圧縮は、機械学習モデルを訓練する際の計算負荷を減らすために広く使われている技法である。
既存の圧縮技術は、連合学習システムにおける効率の良いオーバー・ザ・エア(OTA)アグリゲーションには直接適用できない。
低ランク制約を緩和しないFLにおける低ランクモデル圧縮のための新しい多様体最適化法を提案する。
論文 参考訳(メタデータ) (2023-06-04T18:32:50Z) - Robust low-rank training via approximate orthonormal constraints [2.519906683279153]
低ランク行列多様体上でネットワークの重みを維持する頑健な低ランク学習アルゴリズムを導入する。
その結果, モデル精度を損なうことなく, トレーニングコストと推論コストを低減し, 良好な条件設定を実現し, 対向ロバスト性を向上する。
論文 参考訳(メタデータ) (2023-06-02T12:22:35Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Learning Robust Kernel Ensembles with Kernel Average Pooling [3.6540368812166872]
本稿では,階層活性化テンソルのカーネル次元に沿って平均フィルタを適用するニューラルネットワーク構築ブロックであるKernel Average Pooling(KAP)を紹介する。
類似機能を持つカーネルのアンサンブルは、KAPを装備した畳み込みニューラルネットワークにおいて自然に出現し、バックプロパゲーションで訓練されることを示す。
論文 参考訳(メタデータ) (2022-09-30T19:49:14Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - A Tunable Robust Pruning Framework Through Dynamic Network Rewiring of
DNNs [8.597091257152567]
敵攻撃に対して頑健なプルーンドディープニューラルネットワーク(DNN)モデルを生成する動的ネットワークリウィリング(DNR)手法を提案する。
我々の実験により,DNRは,最先端の代替手段によって達成できるものよりも,クリーンで対角的な画像分類性能の圧縮モデルを一貫して見出すことができた。
論文 参考訳(メタデータ) (2020-11-03T19:49:00Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。