Fugu-MT 論文翻訳(概要): Rank-adaptive spectral pruning of convolutional layers during training

論文の概要: Rank-adaptive spectral pruning of convolutional layers during training

arxiv url: http://arxiv.org/abs/2305.19059v1
Date: Tue, 30 May 2023 14:20:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 16:04:36.518948
Title: Rank-adaptive spectral pruning of convolutional layers during training
Title（参考訳）: 訓練中の畳み込み層のランク適応スペクトルプルーニング
Authors: Emanuele Zangrando, Steffen Schotth\"ofer, Gianluca Ceruti, Jonas Kusch, Francesco Tudisco
Abstract要約: 本稿では,畳み込みをテンソルタッカー形式に分解し,学習中の畳み込みカーネルのタッカーランクを適応的に推定する低パラメトリックトレーニング手法を提案する。本研究では,全ベースライン性能を確実に近似し,損失降下を保証できるロバストなトレーニングアルゴリズムを得る。提案手法はトレーニングコストを大幅に削減し,高い性能を達成し,全ベースラインに匹敵する性能を達成し,一貫して競合する低ランクアプローチよりも優れることを示す。
参考スコア（独自算出の注目度）: 2.3488056916440856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The computing cost and memory demand of deep learning pipelines have grown fast in recent years and thus a variety of pruning techniques have been developed to reduce model parameters. The majority of these techniques focus on reducing inference costs by pruning the network after a pass of full training. A smaller number of methods address the reduction of training costs, mostly based on compressing the network via low-rank layer factorizations. Despite their efficiency for linear layers, these methods fail to effectively handle convolutional filters. In this work, we propose a low-parametric training method that factorizes the convolutions into tensor Tucker format and adaptively prunes the Tucker ranks of the convolutional kernel during training. Leveraging fundamental results from geometric integration theory of differential equations on tensor manifolds, we obtain a robust training algorithm that provably approximates the full baseline performance and guarantees loss descent. A variety of experiments against the full model and alternative low-rank baselines are implemented, showing that the proposed method drastically reduces the training costs, while achieving high performance, comparable to or better than the full baseline, and consistently outperforms competing low-rank approaches.
Abstract（参考訳）: 近年、ディープラーニングパイプラインの計算コストとメモリ需要は急速に増加しており、モデルパラメータを減らすために様々なプルーニング技術が開発されている。これらの技術の大部分は、フルトレーニングのパス後にネットワークをprunすることで、推論コストを削減することに重点を置いている。トレーニングコストの削減に対処する手法は少ないが、主に低ランク層分解によるネットワークの圧縮に基づいている。線形層に対する効率にもかかわらず、これらの手法は畳み込みフィルタを効果的に扱えない。本研究では,畳み込みをテンソルタッカー形式に分解し,学習中の畳み込みカーネルのタッカーランクを適応的に推定する低パラメトリックトレーニング手法を提案する。テンソル多様体上の微分方程式の幾何積分理論の基本的な結果を利用して、正にベースライン性能を近似し、損失降下を保証する頑健なトレーニングアルゴリズムを得る。フルモデルおよび代替低ランクベースラインに対する様々な実験が実施され、提案手法はトレーニングコストを大幅に削減すると同時に、フルベースラインと同等かそれ以上の性能を達成し、競合する低ランクアプローチを一貫して上回っている。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Deep Weight Factorization: Sparse Learning Through the Lens of Artificial Symmetries [10.209740962369453]
スパース正規化技術は機械学習において十分に確立されているが、ニューラルネットワークへの応用は依然として難しい。期待できる代替手段として、浅い重み分解があり、そこでは重みが2つの要因に分断され、$L$penalized Neural Networkの最適化が可能になる。本研究では,2つ以上の既存手法に微分因子を付加し,重み分解を導入する。
論文参考訳（メタデータ） (2025-02-04T17:12:56Z)
tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文参考訳（メタデータ） (2025-01-04T08:25:32Z)
Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-07-26T18:56:47Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文参考訳（メタデータ） (2024-06-06T23:19:57Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文参考訳（メタデータ） (2022-11-13T09:51:16Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
Defensive Tensorization [113.96183766922393]
本稿では,ネットワークの遅延高次分解を利用した対角防御手法であるテンソル防御手法を提案する。我々は,標準画像分類ベンチマークにおけるアプローチの有効性を実証的に実証した。我々は,音声タスクとバイナリネットワークを考慮し,ドメイン間のアプローチと低精度アーキテクチャの汎用性を検証した。
論文参考訳（メタデータ） (2021-10-26T17:00:16Z)
Initialization and Regularization of Factorized Neural Layers [23.875225732697142]
ディープネットにおける因子化層の初期化と規則化の方法を示す。これらのスキームが翻訳と教師なしプリトレーニングの両方のパフォーマンスを向上させる方法を示しています。
論文参考訳（メタデータ） (2021-05-03T17:28:07Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)
A Multi-Scale Tensor Network Architecture for Classification and Regression [0.0]
テンソルネットワークを用いた教師あり学習のためのアルゴリズムを提案する。我々はウェーブレット変換の連続を通して粗粒化によってデータを前処理するステップを採用する。ネットワークを通しての細粒化がモデルの初期化にどのように利用されるかを示す。
論文参考訳（メタデータ） (2020-01-22T21:26:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。