論文の概要: Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics
- arxiv url: http://arxiv.org/abs/2311.05061v1
- Date: Wed, 8 Nov 2023 23:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:31:22.731641
- Title: Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics
- Title(参考訳): 低次元学習ダイナミクスによる過パラメータ深層モデルの効率的な圧縮
- Authors: Soo Min Kwon, Zekai Zhang, Dogyoon Song, Laura Balzano, Qing Qu
- Abstract要約: 我々は,小部分空間へのトレーニングを減らし,深層ネットワークを圧縮する手法を開発した。
我々は,モデルの品質を損なうことなく,我々の圧縮技術が2倍以上のトレーニングプロセスを加速するのを観察した。
- 参考スコア(独自算出の注目度): 10.673414267895355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized models have proven to be powerful tools for solving various
machine learning tasks. However, overparameterization often leads to a
substantial increase in computational and memory costs, which in turn requires
extensive resources to train. In this work, we aim to reduce this complexity by
studying the learning dynamics of overparameterized deep networks. By
extensively studying its learning dynamics, we unveil that the weight matrices
of various architectures exhibit a low-dimensional structure. This finding
implies that we can compress the networks by reducing the training to a small
subspace. We take a step in developing a principled approach for compressing
deep networks by studying deep linear models. We demonstrate that the principal
components of deep linear models are fitted incrementally but within a small
subspace, and use these insights to compress deep linear networks by decreasing
the width of its intermediate layers. Remarkably, we observe that with a
particular choice of initialization, the compressed network converges faster
than the original network, consistently yielding smaller recovery errors
throughout all iterations of gradient descent. We substantiate this observation
by developing a theory focused on the deep matrix factorization problem, and by
conducting empirical evaluations on deep matrix sensing. Finally, we
demonstrate how our compressed model can enhance the utility of deep nonlinear
models. Overall, we observe that our compression technique accelerates the
training process by more than 2x, without compromising model quality.
- Abstract(参考訳): オーバーパラメータモデルは、さまざまな機械学習タスクを解決する強力なツールであることが証明されている。
しかし、過パラメータ化はしばしば計算とメモリのコストを大幅に増加させ、訓練には膨大なリソースを必要とする。
本研究は,過パラメータ化深層ネットワークの学習力学を研究することにより,この複雑性を低減することを目的とする。
学習力学を広範に研究することにより、様々なアーキテクチャの重み行列が低次元構造を示すことを明らかにした。
この発見は、トレーニングを小さな部分空間に縮小することで、ネットワークを圧縮できることを意味する。
我々はディープ・リニア・モデルを研究することによってディープ・ネットワークを圧縮する原理的な手法を開発する。
深部線形モデルの主成分は漸進的だが小さな部分空間内に収まることを実証し、これらの知見を用いて中間層の幅を小さくすることで深部線形ネットワークを圧縮する。
注目すべきは、特定の初期化の選択により、圧縮されたネットワークは元のネットワークよりも高速に収束し、勾配降下の繰り返しを通してより小さな回復誤差が生じることである。
我々は,深層行列分解問題に焦点をあてた理論を開発し,深層行列センシングに関する経験的評価を行うことで,この観測を実証する。
最後に,我々の圧縮モデルが深い非線形モデルの有用性をいかに高めるかを示す。
全体として,我々の圧縮技術はモデル品質を損なうことなく,トレーニングプロセスを2倍以上に高速化する。
関連論文リスト
- Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - Learning Nonlinear Projections for Reduced-Order Modeling of Dynamical
Systems using Constrained Autoencoders [0.0]
制約付き自己エンコーダニューラルネットワークによって記述された非線形射影のクラスを導入し,データから多様体と射影繊維の両方を学習する。
我々のアーキテクチャでは、エンコーダがデコーダの左逆であることを保証するために、可逆的アクティベーション関数と生物直交重み行列を用いる。
また,高速なダイナミックスと非正規性を考慮した斜め射影ファイバの学習を促進するために,新しいダイナミックス対応コスト関数を導入する。
論文 参考訳(メタデータ) (2023-07-28T04:01:48Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。