論文の概要: Rank-adaptive spectral pruning of convolutional layers during training
- arxiv url: http://arxiv.org/abs/2305.19059v1
- Date: Tue, 30 May 2023 14:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:04:36.518948
- Title: Rank-adaptive spectral pruning of convolutional layers during training
- Title(参考訳): 訓練中の畳み込み層のランク適応スペクトルプルーニング
- Authors: Emanuele Zangrando, Steffen Schotth\"ofer, Gianluca Ceruti, Jonas
Kusch, Francesco Tudisco
- Abstract要約: 本稿では,畳み込みをテンソルタッカー形式に分解し,学習中の畳み込みカーネルのタッカーランクを適応的に推定する低パラメトリックトレーニング手法を提案する。
本研究では,全ベースライン性能を確実に近似し,損失降下を保証できるロバストなトレーニングアルゴリズムを得る。
提案手法はトレーニングコストを大幅に削減し,高い性能を達成し,全ベースラインに匹敵する性能を達成し,一貫して競合する低ランクアプローチよりも優れることを示す。
- 参考スコア(独自算出の注目度): 2.3488056916440856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computing cost and memory demand of deep learning pipelines have grown
fast in recent years and thus a variety of pruning techniques have been
developed to reduce model parameters. The majority of these techniques focus on
reducing inference costs by pruning the network after a pass of full training.
A smaller number of methods address the reduction of training costs, mostly
based on compressing the network via low-rank layer factorizations. Despite
their efficiency for linear layers, these methods fail to effectively handle
convolutional filters. In this work, we propose a low-parametric training
method that factorizes the convolutions into tensor Tucker format and
adaptively prunes the Tucker ranks of the convolutional kernel during training.
Leveraging fundamental results from geometric integration theory of
differential equations on tensor manifolds, we obtain a robust training
algorithm that provably approximates the full baseline performance and
guarantees loss descent. A variety of experiments against the full model and
alternative low-rank baselines are implemented, showing that the proposed
method drastically reduces the training costs, while achieving high
performance, comparable to or better than the full baseline, and consistently
outperforms competing low-rank approaches.
- Abstract(参考訳): 近年、ディープラーニングパイプラインの計算コストとメモリ需要は急速に増加しており、モデルパラメータを減らすために様々なプルーニング技術が開発されている。
これらの技術の大部分は、フルトレーニングのパス後にネットワークをprunすることで、推論コストを削減することに重点を置いている。
トレーニングコストの削減に対処する手法は少ないが、主に低ランク層分解によるネットワークの圧縮に基づいている。
線形層に対する効率にもかかわらず、これらの手法は畳み込みフィルタを効果的に扱えない。
本研究では,畳み込みをテンソルタッカー形式に分解し,学習中の畳み込みカーネルのタッカーランクを適応的に推定する低パラメトリックトレーニング手法を提案する。
テンソル多様体上の微分方程式の幾何積分理論の基本的な結果を利用して、正にベースライン性能を近似し、損失降下を保証する頑健なトレーニングアルゴリズムを得る。
フルモデルおよび代替低ランクベースラインに対する様々な実験が実施され、提案手法はトレーニングコストを大幅に削減すると同時に、フルベースラインと同等かそれ以上の性能を達成し、競合する低ランクアプローチを一貫して上回っている。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Defensive Tensorization [113.96183766922393]
本稿では,ネットワークの遅延高次分解を利用した対角防御手法であるテンソル防御手法を提案する。
我々は,標準画像分類ベンチマークにおけるアプローチの有効性を実証的に実証した。
我々は,音声タスクとバイナリネットワークを考慮し,ドメイン間のアプローチと低精度アーキテクチャの汎用性を検証した。
論文 参考訳(メタデータ) (2021-10-26T17:00:16Z) - Initialization and Regularization of Factorized Neural Layers [23.875225732697142]
ディープネットにおける因子化層の初期化と規則化の方法を示す。
これらのスキームが翻訳と教師なしプリトレーニングの両方のパフォーマンスを向上させる方法を示しています。
論文 参考訳(メタデータ) (2021-05-03T17:28:07Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - A Multi-Scale Tensor Network Architecture for Classification and
Regression [0.0]
テンソルネットワークを用いた教師あり学習のためのアルゴリズムを提案する。
我々はウェーブレット変換の連続を通して粗粒化によってデータを前処理するステップを採用する。
ネットワークを通しての細粒化がモデルの初期化にどのように利用されるかを示す。
論文 参考訳(メタデータ) (2020-01-22T21:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。