論文の概要: Maestro: Uncovering Low-Rank Structures via Trainable Decomposition
- arxiv url: http://arxiv.org/abs/2308.14929v1
- Date: Mon, 28 Aug 2023 23:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 16:30:19.386588
- Title: Maestro: Uncovering Low-Rank Structures via Trainable Decomposition
- Title(参考訳): Maestro: トレーニング可能な分解による低ランク構造発見
- Authors: Samuel Horvath, Stefanos Laskaridis, Shashank Rajput, Hongyi Wang
- Abstract要約: 我々は,Deep Neural Networks(DNN)におけるトレーニング可能な低ランク層のためのフレームワークMaestroを提案する。
提案手法は,一様分散データ上での線形写像のSVD分解と,線形オートエンコーダのPCAを復元することを示した。
- 参考スコア(独自算出の注目度): 16.664016849293386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) have been a large driver and enabler for AI
breakthroughs in recent years. These models have been getting larger in their
attempt to become more accurate and tackle new upcoming use-cases, including
AR/VR and intelligent assistants. However, the training process of such large
models is a costly and time-consuming process, which typically yields a single
model to fit all targets. To mitigate this, various techniques have been
proposed in the literature, including pruning, sparsification or quantization
of the model weights and updates. While able to achieve high compression rates,
they often incur computational overheads or accuracy penalties. Alternatively,
factorization methods have been leveraged to incorporate low-rank compression
in the training process. Similarly, such techniques (e.g.,~SVD) frequently rely
on the computationally expensive decomposition of layers and are potentially
sub-optimal for non-linear models, such as DNNs. In this work, we take a
further step in designing efficient low-rank models and propose Maestro, a
framework for trainable low-rank layers. Instead of regularly applying a priori
decompositions such as SVD, the low-rank structure is built into the training
process through a generalized variant of Ordered Dropout. This method imposes
an importance ordering via sampling on the decomposed DNN structure. Our
theoretical analysis demonstrates that our method recovers the SVD
decomposition of linear mapping on uniformly distributed data and PCA for
linear autoencoders. We further apply our technique on DNNs and empirically
illustrate that Maestro enables the extraction of lower footprint models that
preserve model performance while allowing for graceful accuracy-latency
tradeoff for the deployment to devices of different capabilities.
- Abstract(参考訳): 近年、Deep Neural Networks(DNN)は、AIブレークスルーのための大きなドライバーであり、イネーブルである。
これらのモデルは、より正確になり、AR/VRやインテリジェントアシスタントなど、新しいユースケースに取り組むために、ますます大きくなっている。
しかし、そのような大きなモデルのトレーニングプロセスはコストと時間を要するプロセスであり、通常、すべてのターゲットに適合する単一のモデルを生成する。
これを緩和するために、プルーニング、スパース化、モデルの重み付けと更新の定量化を含む様々な技術が文献に提案されている。
高い圧縮速度を達成することができるが、しばしば計算上のオーバーヘッドや精度のペナルティを負う。
あるいは、ファクタ化手法を利用して、トレーニングプロセスに低ランク圧縮を組み込むこともできる。
同様に、そのような手法(例えば~SVD)は、しばしば計算的に高価な層分解に依存し、DNNのような非線形モデルに準最適である可能性がある。
本研究では、効率的な低ランクモデルの設計をさらに進め、トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
SVDのような事前分解を定期的に適用する代わりに、オーダード・ドロップアウトの一般化版を通じて、低ランク構造をトレーニングプロセスに組み込む。
この方法は、分解したDNN構造をサンプリングすることで重要な順序付けを行う。
理論解析により,一様分布データに対する線形写像のsvd分解とリニアオートエンコーダのpcaを回復することを示した。
さらに,本手法をDNNに適用し,Maestroがモデル性能を維持する低フットプリントモデルの抽出を可能にし,異なる機能を持つデバイスに展開する際の高精度なレイテンシトレードオフを可能にすることを実証的に示す。
関連論文リスト
- Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。
本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文 参考訳(メタデータ) (2023-11-08T23:57:03Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Hyper-Reduced Autoencoders for Efficient and Accurate Nonlinear Model
Reductions [1.0499611180329804]
射影に基づくモデル順序の減少は、ゆっくりと減衰するコルモゴロフ n-幅の問題に対して最近提案されている。
これまで提案された手法の欠点は、高忠実度ソリューションスナップショット上でネットワークをトレーニングする際の潜在的に高い計算コストである。
我々は、高忠実度ソリューションスナップショットのサブサンプルバージョンのみにニューラルネットワークをトレーニングすることで、この欠点を克服する新しい手法を提案し、分析する。
論文 参考訳(メタデータ) (2023-03-16T20:18:33Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文 参考訳(メタデータ) (2020-07-24T22:42:35Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。