Fugu-MT 論文翻訳(概要): Compact Model Training by Low-Rank Projection with Energy Transfer

論文の概要: Compact Model Training by Low-Rank Projection with Energy Transfer

arxiv url: http://arxiv.org/abs/2204.05566v3
Date: Wed, 14 Aug 2024 15:31:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 18:56:36.735109
Title: Compact Model Training by Low-Rank Projection with Energy Transfer
Title（参考訳）: エネルギー伝達を考慮した低軌道投射による小型模型の訓練
Authors: Kailing Guo, Zhenquan Lin, Canyang Chen, Xiaofen Xing, Fang Liu, Xiangmin Xu,
Abstract要約: 低ランクは従来の機械学習において重要な役割を果たすが、ディープラーニングではそれほど人気がない。従来の低ランクネットワーク圧縮手法は、事前学習されたモデルと再学習を近似してネットワークを圧縮する。我々は、低ランク圧縮ネットワークをスクラッチからトレーニングし、競争性能を向上する新しいトレーニング手法、低ランク投射とエネルギー伝達を考案した。
参考スコア（独自算出の注目度）: 13.446719541044663
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Low-rankness plays an important role in traditional machine learning, but is not so popular in deep learning. Most previous low-rank network compression methods compress networks by approximating pre-trained models and re-training. However, the optimal solution in the Euclidean space may be quite different from the one with low-rank constraint. A well-pre-trained model is not a good initialization for the model with low-rank constraints. Thus, the performance of a low-rank compressed network degrades significantly. Compared with other network compression methods such as pruning, low-rank methods attract less attention in recent years. In this paper, we devise a new training method, low-rank projection with energy transfer (LRPET), that trains low-rank compressed networks from scratch and achieves competitive performance. We propose to alternately perform stochastic gradient descent training and projection of each weight matrix onto the corresponding low-rank manifold. Compared to re-training on the compact model, this enables full utilization of model capacity since solution space is relaxed back to Euclidean space after projection. The matrix energy (the sum of squares of singular values) reduction caused by projection is compensated by energy transfer. We uniformly transfer the energy of the pruned singular values to the remaining ones. We theoretically show that energy transfer eases the trend of gradient vanishing caused by projection. In modern networks, a batch normalization (BN) layer can be merged into the previous convolution layer for inference, thereby influencing the optimal low-rank approximation of the previous layer. We propose BN rectification to cut off its effect on the optimal low-rank approximation, which further improves the performance.
Abstract（参考訳）: 低ランクは従来の機械学習において重要な役割を果たすが、ディープラーニングではそれほど人気がない。従来の低ランクネットワーク圧縮手法は、事前学習されたモデルと再学習を近似してネットワークを圧縮する。しかし、ユークリッド空間の最適解は低ランク制約を持つ解とは全く異なるかもしれない。十分に事前訓練されたモデルは、低ランクの制約のあるモデルにとって良い初期化ではありません。これにより、低ランク圧縮ネットワークの性能は著しく低下する。プルーニングなどの他のネットワーク圧縮手法と比較すると,近年は低ランク方式が注目されている。本稿では,低ランク圧縮ネットワークをスクラッチからトレーニングし,競争性能を向上する,新しいトレーニング手法である低ランクプロジェクション・アンド・エネルギ転送(LRPET)を提案する。本稿では,各重み行列の対応する低ランク多様体への確率勾配降下訓練と投影を交互に行うことを提案する。コンパクトモデル上の再学習と比較して、これは射影後のユークリッド空間に解空間が緩和されるので、モデルキャパシティのフル活用を可能にする。射影による行列エネルギー(特異値の二乗の和)の減少はエネルギー移動によって補償される。切断された特異値のエネルギーを残りの値に均一に転送する。エネルギー移動が投射による勾配消滅の傾向を緩和することを示す。現代のネットワークでは、バッチ正規化(BN)層を推論のために前の畳み込み層にマージすることで、前の層の最適低ランク近似に影響を与える。本稿では,BN補正による最適低ランク近似への影響を低減し,さらなる性能向上を図る。

関連論文リスト

Towards the Training of Deeper Predictive Coding Neural Networks [53.15874572081944]
平衡伝播で訓練された予測符号化ネットワークは、反復エネルギープロセスを通じて推論を行うニューラルネットワークである。従来の研究では、浅層建築において効果が示されたが、深さが5層から7層を超えると性能が著しく低下した。この劣化の原因は,重み更新時の層間エラーの指数的不均衡化と,より深い層内の更新を導く上で,前層からの予測が有効でないことにある。
論文参考訳（メタデータ） (2025-06-30T12:44:47Z)
Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-02T02:19:22Z)
TrAct: Making First-layer Pre-Activations Trainable [65.40281259525578]
視覚モデルの第1層の訓練について検討し、画素値と更新等級の関係を明確にする。コントラストの低い画像は、高いコントラストのイメージよりも学習への影響が小さい。非常に明るい、または非常に暗い画像は、適度な明るさのイメージよりも重量に強い影響を与える。
論文参考訳（メタデータ） (2024-10-31T14:25:55Z)
Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition [11.399520888150468]
ローランド誘導訓練(LoRITa)と呼ばれる理論的修正手法を提案する。 LoRITaは線形層を構成することで低ランク化を促進し、特異値切り込みを用いて圧縮する。我々は,完全連結ネットワーク上でのMNIST,視覚変換器上でのCIFAR10,畳み込みニューラルネットワーク上でのCIFAR10/100と画像ネットを用いたアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-05-06T00:58:23Z)
InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。 InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文参考訳（メタデータ） (2023-06-20T03:03:04Z)
Riemannian Low-Rank Model Compression for Federated Learning with Over-the-Air Aggregation [2.741266294612776]
低ランクモデル圧縮は、機械学習モデルを訓練する際の計算負荷を減らすために広く使われている技法である。既存の圧縮技術は、連合学習システムにおける効率の良いオーバー・ザ・エア(OTA)アグリゲーションには直接適用できない。低ランク制約を緩和しないFLにおける低ランクモデル圧縮のための新しい多様体最適化法を提案する。
論文参考訳（メタデータ） (2023-06-04T18:32:50Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文参考訳（メタデータ） (2022-05-17T05:37:08Z)
Low-rank Tensor Decomposition for Compression of Convolutional Neural Networks Using Funnel Regularization [1.8579693774597708]
低ランクテンソル分解を用いた事前学習ネットワークを圧縮するモデル削減手法を提案する。圧縮中の重要でない要因を抑えるために, ファンネル関数と呼ばれる新しい正規化法を提案する。 ImageNet2012のResNet18では、GMACの精度は0.7%に過ぎず、Top-1の精度はわずかに低下する。
論文参考訳（メタデータ） (2021-12-07T13:41:51Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
TRP: Trained Rank Pruning for Efficient Deep Neural Networks [69.06699632822514]
低位近似とトレーニングを交互に行うTrated Rank Pruning (TRP)を提案する。サブ段階降下により最適化された核正則化を利用して、TRPの低位化をさらに促進する。 TRPトレーニングネットワークは本質的に低ランク構造であり、無視可能な性能損失と近似される。
論文参考訳（メタデータ） (2020-04-30T03:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。