論文の概要: Rank-adaptive spectral pruning of convolutional layers during training
- arxiv url: http://arxiv.org/abs/2305.19059v1
- Date: Tue, 30 May 2023 14:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:04:36.518948
- Title: Rank-adaptive spectral pruning of convolutional layers during training
- Title(参考訳): 訓練中の畳み込み層のランク適応スペクトルプルーニング
- Authors: Emanuele Zangrando, Steffen Schotth\"ofer, Gianluca Ceruti, Jonas
Kusch, Francesco Tudisco
- Abstract要約: 本稿では,畳み込みをテンソルタッカー形式に分解し,学習中の畳み込みカーネルのタッカーランクを適応的に推定する低パラメトリックトレーニング手法を提案する。
本研究では,全ベースライン性能を確実に近似し,損失降下を保証できるロバストなトレーニングアルゴリズムを得る。
提案手法はトレーニングコストを大幅に削減し,高い性能を達成し,全ベースラインに匹敵する性能を達成し,一貫して競合する低ランクアプローチよりも優れることを示す。
- 参考スコア(独自算出の注目度): 2.3488056916440856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computing cost and memory demand of deep learning pipelines have grown
fast in recent years and thus a variety of pruning techniques have been
developed to reduce model parameters. The majority of these techniques focus on
reducing inference costs by pruning the network after a pass of full training.
A smaller number of methods address the reduction of training costs, mostly
based on compressing the network via low-rank layer factorizations. Despite
their efficiency for linear layers, these methods fail to effectively handle
convolutional filters. In this work, we propose a low-parametric training
method that factorizes the convolutions into tensor Tucker format and
adaptively prunes the Tucker ranks of the convolutional kernel during training.
Leveraging fundamental results from geometric integration theory of
differential equations on tensor manifolds, we obtain a robust training
algorithm that provably approximates the full baseline performance and
guarantees loss descent. A variety of experiments against the full model and
alternative low-rank baselines are implemented, showing that the proposed
method drastically reduces the training costs, while achieving high
performance, comparable to or better than the full baseline, and consistently
outperforms competing low-rank approaches.
- Abstract(参考訳): 近年、ディープラーニングパイプラインの計算コストとメモリ需要は急速に増加しており、モデルパラメータを減らすために様々なプルーニング技術が開発されている。
これらの技術の大部分は、フルトレーニングのパス後にネットワークをprunすることで、推論コストを削減することに重点を置いている。
トレーニングコストの削減に対処する手法は少ないが、主に低ランク層分解によるネットワークの圧縮に基づいている。
線形層に対する効率にもかかわらず、これらの手法は畳み込みフィルタを効果的に扱えない。
本研究では,畳み込みをテンソルタッカー形式に分解し,学習中の畳み込みカーネルのタッカーランクを適応的に推定する低パラメトリックトレーニング手法を提案する。
テンソル多様体上の微分方程式の幾何積分理論の基本的な結果を利用して、正にベースライン性能を近似し、損失降下を保証する頑健なトレーニングアルゴリズムを得る。
フルモデルおよび代替低ランクベースラインに対する様々な実験が実施され、提案手法はトレーニングコストを大幅に削減すると同時に、フルベースラインと同等かそれ以上の性能を達成し、競合する低ランクアプローチを一貫して上回っている。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Deep Weight Factorization: Sparse Learning Through the Lens of Artificial Symmetries [10.209740962369453]
スパース正規化技術は機械学習において十分に確立されているが、ニューラルネットワークへの応用は依然として難しい。
期待できる代替手段として、浅い重み分解があり、そこでは重みが2つの要因に分断され、$L$penalized Neural Networkの最適化が可能になる。
本研究では,2つ以上の既存手法に微分因子を付加し,重み分解を導入する。
論文 参考訳(メタデータ) (2025-02-04T17:12:56Z) - tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。
ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。
テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-04T08:25:32Z) - Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。
我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Defensive Tensorization [113.96183766922393]
本稿では,ネットワークの遅延高次分解を利用した対角防御手法であるテンソル防御手法を提案する。
我々は,標準画像分類ベンチマークにおけるアプローチの有効性を実証的に実証した。
我々は,音声タスクとバイナリネットワークを考慮し,ドメイン間のアプローチと低精度アーキテクチャの汎用性を検証した。
論文 参考訳(メタデータ) (2021-10-26T17:00:16Z) - Initialization and Regularization of Factorized Neural Layers [23.875225732697142]
ディープネットにおける因子化層の初期化と規則化の方法を示す。
これらのスキームが翻訳と教師なしプリトレーニングの両方のパフォーマンスを向上させる方法を示しています。
論文 参考訳(メタデータ) (2021-05-03T17:28:07Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - A Multi-Scale Tensor Network Architecture for Classification and
Regression [0.0]
テンソルネットワークを用いた教師あり学習のためのアルゴリズムを提案する。
我々はウェーブレット変換の連続を通して粗粒化によってデータを前処理するステップを採用する。
ネットワークを通しての細粒化がモデルの初期化にどのように利用されるかを示す。
論文 参考訳(メタデータ) (2020-01-22T21:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。