論文の概要: Accelerating the Low-Rank Decomposed Models
- arxiv url: http://arxiv.org/abs/2407.20266v1
- Date: Wed, 24 Jul 2024 20:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 19:27:58.366384
- Title: Accelerating the Low-Rank Decomposed Models
- Title(参考訳): 低ランク分解モデルの高速化
- Authors: Habib Hajimolahoseini, Walid Ahmed, Austin Wen, Yang Liu,
- Abstract要約: 本稿では,AIモデルにおける低階分解手法の修正方法に関する総合的研究について述べる。
トレーニングと推論のスピードアップだけでなく、高精度と低メモリ消費の両面から恩恵を受けることができます。
- 参考スコア(独自算出の注目度): 4.817356884702073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tensor decomposition is a mathematically supported technique for data compression. It consists of applying some kind of a Low Rank Decomposition technique on the tensors or matrices in order to reduce the redundancy of the data. However, it is not a popular technique for compressing the AI models duo to the high number of new layers added to the architecture after decomposition. Although the number of parameters could shrink significantly, it could result in the model be more than twice deeper which could add some latency to the training or inference. In this paper, we present a comprehensive study about how to modify low rank decomposition technique in AI models so that we could benefit from both high accuracy and low memory consumption as well as speeding up the training and inference
- Abstract(参考訳): テンソル分解はデータ圧縮の数学的支援技術である。
データの冗長性を低減するために、テンソルや行列に何らかの下級分解技法を適用する。
しかし、分解後にアーキテクチャに追加される多数の新しいレイヤにAIモデルをデュオに圧縮する一般的なテクニックではない。
パラメータの数は大幅に減少する可能性があるが、結果としてモデルが2倍以上深くなり、トレーニングや推論に多少の遅延が生じる可能性がある。
本稿では,AIモデルにおける低階分解技術の変更方法に関する総合的研究を行い,高い精度と低メモリ消費の両面から,トレーニングと推論の高速化を図っている。
関連論文リスト
- Layer-Specific Optimization: Sensitivity Based Convolution Layers Basis Search [0.0]
畳み込み層の重みに対して行列分解を適用する新しい方法を提案する。
この方法の本質は、すべての畳み込みを訓練することではなく、畳み込みのサブセット(基底畳み込み)のみを訓練することであり、残りを基底の線形結合として表現することである。
ResNetファミリとCIFAR-10データセットによるモデル実験では、ベース畳み込みはモデルのサイズを減らすだけでなく、ネットワークの前方および後方通過を加速する。
論文 参考訳(メタデータ) (2024-08-12T09:24:48Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Training Acceleration of Low-Rank Decomposed Networks using Sequential
Freezing and Rank Quantization [5.914653351242832]
そこで本研究では,分解に少数のランクを使用することなく,低階分解モデルを高速化する2つの手法を提案する。
これらの手法には、ランク最適化とシーケンシャルな層凍結が含まれる。
実験によると、これらの手法は、トレーニング中に60%まで、組み合わせると推論時に37%まで、モデルのスループットを向上させることができる。
論文 参考訳(メタデータ) (2023-09-07T16:33:42Z) - Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [15.254107731735553]
近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。
より正確で安全になるにつれて、ますます大きなものになってきています。
つまり、トレーニングはますますコストと時間がかかります。
トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
論文 参考訳(メタデータ) (2023-08-28T23:08:15Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Low-rank Tensor Decomposition for Compression of Convolutional Neural
Networks Using Funnel Regularization [1.8579693774597708]
低ランクテンソル分解を用いた事前学習ネットワークを圧縮するモデル削減手法を提案する。
圧縮中の重要でない要因を抑えるために, ファンネル関数と呼ばれる新しい正規化法を提案する。
ImageNet2012のResNet18では、GMACの精度は0.7%に過ぎず、Top-1の精度はわずかに低下する。
論文 参考訳(メタデータ) (2021-12-07T13:41:51Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。