論文の概要: Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics
- arxiv url: http://arxiv.org/abs/2311.05061v2
- Date: Mon, 11 Mar 2024 18:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:23:32.737123
- Title: Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics
- Title(参考訳): 低次元学習ダイナミクスによる過パラメータ深層モデルの効率的な圧縮
- Authors: Soo Min Kwon, Zekai Zhang, Dogyoon Song, Laura Balzano, Qing Qu
- Abstract要約: 本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。
本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
- 参考スコア(独自算出の注目度): 10.673414267895355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized models have proven to be powerful tools for solving various
machine learning tasks. However, overparameterization often leads to a
substantial increase in computational and memory costs, which in turn requires
extensive resources to train. In this work, we present a novel approach for
compressing overparameterized models, developed through studying their learning
dynamics. We observe that for many deep models, updates to the weight matrices
occur within a low-dimensional invariant subspace. For deep linear models, we
demonstrate that their principal components are fitted incrementally within a
small subspace, and use these insights to propose a compression algorithm for
deep linear networks that involve decreasing the width of their intermediate
layers. We empirically evaluate the effectiveness of our compression technique
on matrix recovery problems. Remarkably, by using an initialization that
exploits the structure of the problem, we observe that our compressed network
converges faster than the original network, consistently yielding smaller
recovery errors. We substantiate this observation by developing a theory
focused on deep matrix factorization. Finally, we empirically demonstrate how
our compressed model has the potential to improve the utility of deep nonlinear
models. Overall, our algorithm improves the training efficiency by more than
2x, without compromising generalization.
- Abstract(参考訳): オーバーパラメータモデルは、さまざまな機械学習タスクを解決する強力なツールであることが証明されている。
しかし、過パラメータ化はしばしば計算とメモリのコストを大幅に増加させ、訓練には膨大なリソースを必要とする。
本稿では,その学習ダイナミクスを解析し,超パラメータモデル圧縮のための新しい手法を提案する。
多くの深層モデルにおいて、重み行列の更新は低次元不変部分空間内で起こることを観測する。
深層線形モデルでは, 主成分が小さな部分空間内に漸進的に収まることを実証し, これらの知見を用いて, 中間層幅の減少を伴う深部線形ネットワークの圧縮アルゴリズムを提案する。
行列回復問題に対する圧縮手法の有効性を実証的に評価した。
問題の構造を利用する初期化を用いて、圧縮されたネットワークが元のネットワークよりも高速に収束し、回復エラーが一貫して小さくなるのを観察する。
我々は、深層行列分解に焦点をあてた理論を発展させることで、この観察を実証する。
最後に,我々の圧縮モデルが深い非線形モデルの有用性を改善する可能性を実証する。
全体として,アルゴリズムは一般化を損なうことなく,トレーニング効率を2倍以上向上させる。
関連論文リスト
- Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - Learning Nonlinear Projections for Reduced-Order Modeling of Dynamical
Systems using Constrained Autoencoders [0.0]
制約付き自己エンコーダニューラルネットワークによって記述された非線形射影のクラスを導入し,データから多様体と射影繊維の両方を学習する。
我々のアーキテクチャでは、エンコーダがデコーダの左逆であることを保証するために、可逆的アクティベーション関数と生物直交重み行列を用いる。
また,高速なダイナミックスと非正規性を考慮した斜め射影ファイバの学習を促進するために,新しいダイナミックス対応コスト関数を導入する。
論文 参考訳(メタデータ) (2023-07-28T04:01:48Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。