論文の概要: Towards Compact Neural Networks via End-to-End Training: A Bayesian
Tensor Approach with Automatic Rank Determination
- arxiv url: http://arxiv.org/abs/2010.08689v3
- Date: Fri, 1 Oct 2021 18:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 09:11:04.617174
- Title: Towards Compact Neural Networks via End-to-End Training: A Bayesian
Tensor Approach with Automatic Rank Determination
- Title(参考訳): エンド・ツー・エンドトレーニングによるニューラルネットワークのコンパクト化:自動ランク決定によるベイズテンソルアプローチ
- Authors: Cole Hawkins, Xing Liu, Zheng Zhang
- Abstract要約: コンパクトニューラルネットワークをスクラッチから直接、低メモリと低計算コストでトレーニングすることが望ましい。
低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。
本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.173092834726528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While post-training model compression can greatly reduce the inference cost
of a deep neural network, uncompressed training still consumes a huge amount of
hardware resources, run-time and energy. It is highly desirable to directly
train a compact neural network from scratch with low memory and low
computational cost. Low-rank tensor decomposition is one of the most effective
approaches to reduce the memory and computing requirements of large-size neural
networks. However, directly training a low-rank tensorized neural network is a
very challenging task because it is hard to determine a proper tensor rank {\it
a priori}, which controls the model complexity and compression ratio in the
training process. This paper presents a novel end-to-end framework for low-rank
tensorized training of neural networks. We first develop a flexible Bayesian
model that can handle various low-rank tensor formats (e.g., CP, Tucker, tensor
train and tensor-train matrix) that compress neural network parameters in
training. This model can automatically determine the tensor ranks inside a
nonlinear forward model, which is beyond the capability of existing Bayesian
tensor methods. We further develop a scalable stochastic variational inference
solver to estimate the posterior density of large-scale problems in training.
Our work provides the first general-purpose rank-adaptive framework for
end-to-end tensorized training. Our numerical results on various neural network
architectures show orders-of-magnitude parameter reduction and little accuracy
loss (or even better accuracy) in the training process. Specifically, on a very
large deep learning recommendation system with over $4.2\times 10^9$ model
parameters, our method can reduce the variables to only $1.6\times 10^5$
automatically in the training process (i.e., by $2.6\times 10^4$ times) while
achieving almost the same accuracy.
- Abstract(参考訳): トレーニング後のモデル圧縮はディープニューラルネットワークの推論コストを大幅に削減するが、非圧縮トレーニングは依然として膨大なハードウェアリソース、実行時間、エネルギーを消費する。
少ないメモリと低い計算コストで、コンパクトニューラルネットワークをスクラッチから直接トレーニングすることが非常に望ましい。
低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。
しかしながら、低ランクのテンソル化ニューラルネットワークを直接トレーニングするのは、トレーニングプロセスにおけるモデル複雑性と圧縮比を制御する適切なテンソルランクを決定することが難しいため、非常に難しい作業である。
本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
まず、ニューラルネットワークパラメータをトレーニング時に圧縮する様々な低ランクテンソル形式(CP、タッカー、テンソルトレイン、テンソルトレインマトリックスなど)を扱える柔軟なベイズモデルを開発する。
このモデルは、既存のベイズテンソル法の能力を超える非線形フォワードモデル内のテンソルランクを自動的に決定することができる。
さらに,大規模問題の後方密度を推定するために,スケーラブルな確率変動推論法を開発した。
我々の研究は、エンドツーエンドのテンソル化トレーニングのための、初めての汎用的なランク適応フレームワークを提供する。
様々なニューラルネットワークアーキテクチャにおける数値計算結果から,学習過程において桁違いなパラメータ低減と精度の低下(あるいは精度向上)がみられた。
特に、4.2\times 10^9$モデルパラメータを超える非常に大きなディープラーニング推奨システムでは、トレーニングプロセスで自動的に変数を1.6\times 10^5$に減らすことができる(つまり、2.6\times 10^4$ times)。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Tensor Decomposition for Model Reduction in Neural Networks: A Review [13.96938227911258]
現代のニューラルネットワークはコンピュータビジョン(CV)と自然言語処理(NLP)の分野に革命をもたらした
複雑なCVタスクや画像分類、画像生成、機械翻訳といったNLPタスクの解決に広く用いられている。
本稿では,6つのテンソル分解法を概説し,モデルパラメータの圧縮能力について述べる。
論文 参考訳(メタデータ) (2023-04-26T13:12:00Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Tensor-Train Networks for Learning Predictive Modeling of
Multidimensional Data [0.0]
有望な戦略は、物理的および化学的用途で非常に成功したテンソルネットワークに基づいています。
本研究では, 多次元回帰モデルの重みをテンソルネットワークを用いて学習し, 強力なコンパクト表現を実現することを示した。
TT形式の重みを計算力の低減で近似するための最小二乗を交互に行うアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2021-01-22T16:14:38Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Training highly effective connectivities within neural networks with
randomly initialized, fixed weights [4.56877715768796]
重みの符号を反転させてネットワークを訓練する新しい方法を提案する。
重みが一定等級であっても、高非対称分布から重みが引き出される場合でも良い結果が得られる。
論文 参考訳(メタデータ) (2020-06-30T09:41:18Z) - Taylorized Training: Towards Better Approximation of Neural Network
Training at Finite Width [116.69845849754186]
Taylorized Trainingは、ニューラルネットワークの$k$-orderTaylor拡張をトレーニングする。
我々は、Taylorized Trainingが完全なニューラルネットワークトレーニングに同意していることを示します。
本実験は, 広帯域ニューラルネットワークにおいて, 近似誤差$k$-階Taylorized Modelが指数関数的に$k$以上減衰することを示す理論的結果と相補する。
論文 参考訳(メタデータ) (2020-02-10T18:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。