論文の概要: TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models
- arxiv url: http://arxiv.org/abs/2101.11714v1
- Date: Mon, 25 Jan 2021 23:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:02:27.390165
- Title: TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models
- Title(参考訳): TT-Rec:深層学習推薦モデルのためのテンソルトレイン圧縮
- Authors: Chunxing Yin and Bilge Acun and Xing Liu and Carole-Jean Wu
- Abstract要約: 深層学習レコメンデーションモデル(dlrms)におけるテーブル埋め込みのメモリ容量は劇的に増加している。
DLRM(TT-Rec)の列車分解の可能性を示す。
TT-Recは、メモリ容量、精度、タイミング性能の3つの重要な設計次元で評価する。
- 参考スコア(独自算出の注目度): 5.577715465378262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The memory capacity of embedding tables in deep learning recommendation
models (DLRMs) is increasing dramatically from tens of GBs to TBs across the
industry. Given the fast growth in DLRMs, novel solutions are urgently needed,
in order to enable fast and efficient DLRM innovations. At the same time, this
must be done without having to exponentially increase infrastructure capacity
demands. In this paper, we demonstrate the promising potential of Tensor Train
decomposition for DLRMs (TT-Rec), an important yet under-investigated context.
We design and implement optimized kernels (TT-EmbeddingBag) to evaluate the
proposed TT-Rec design. TT-EmbeddingBag is 3 times faster than the SOTA TT
implementation. The performance of TT-Rec is further optimized with the batched
matrix multiplication and caching strategies for embedding vector lookup
operations. In addition, we present mathematically and empirically the effect
of weight initialization distribution on DLRM accuracy and propose to
initialize the tensor cores of TT-Rec following the sampled Gaussian
distribution. We evaluate TT-Rec across three important design space dimensions
-- memory capacity, accuracy, and timing performance -- by training MLPerf-DLRM
with Criteo's Kaggle and Terabyte data sets. TT-Rec achieves 117 times and 112
times model size compression, for Kaggle and Terabyte, respectively. This
impressive model size reduction can come with no accuracy nor training time
overhead as compared to the uncompressed baseline.
- Abstract(参考訳): ディープラーニングレコメンデーションモデル(DLRM)への組み込みテーブルのメモリ容量は、業界全体で数十GBからTBへと劇的に増加しています。
DLRMの急速な成長を考えると、迅速かつ効率的なDLRMイノベーションを可能にするために、新しいソリューションが緊急に必要です。
同時に、インフラストラクチャのキャパシティ要求を指数的に増やさなくても、これを行う必要があります。
本論文では,重要かつ未調査のコンテキストであるDLRM(TT-Rec)に対するTensor Trainの分解の可能性を示す。
提案するTT-Rec設計を評価するために,最適化カーネル(TT-EmbeddingBag)を設計,実装する。
TT-EmbeddingBagはSOTA TT実装の3倍高速です。
TT-Recの性能は、ベクトルルックアップ操作を埋め込むためのバッチ行列乗算とキャッシュ戦略によりさらに最適化される。
さらに, 重量初期化分布がDLRM精度に及ぼす影響を数学的, 実験的に検討し, サンプルガウス分布に従ってTT-Recのテンソルコアを初期化することを提案する。
mlperf-dlrmをcriteoのkaggleおよびterabyteデータセットでトレーニングすることにより,メモリ容量,精度,タイミングパフォーマンスという3つの重要な設計空間でtt-recを評価する。
TT-Recは、KaggleとTerabyteのモデルサイズ圧縮をそれぞれ117回、112回達成します。
この印象的なモデルサイズ削減は、圧縮されていないベースラインと比較して正確さやトレーニング時間のオーバーヘッドを伴わない。
関連論文リスト
- Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。
スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文 参考訳(メタデータ) (2022-07-21T19:50:34Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Provable Tensor-Train Format Tensor Completion by Riemannian
Optimization [22.166436026482984]
TT形式テンソル完備化のためのRGradアルゴリズムの収束に関する最初の理論的保証を提供する。
また, 逐次2次モーメント法(Sequence second-order moment method)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-27T08:13:58Z) - Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference [33.66462823637363]
最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。
ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
論文 参考訳(メタデータ) (2021-08-04T17:28:45Z) - Towards Efficient Tensor Decomposition-Based DNN Model Compression with
Optimization Framework [14.27609385208807]
乗算器の交互方向法(ADMM)を用いたテンソル分解に基づくモデル圧縮のための体系的フレームワークを提案する。
私たちのフレームワークは非常に一般的で、CNNとRNNの両方で機能します。
実験の結果,ADMMに基づくTTフォーマットモデルは非常に高い圧縮性能を示し,精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-07-26T18:31:33Z) - Tensor Train Random Projection [0.0]
本研究は、次元減少のための新しいテンソルトレインランダムプロジェクション(TTRP)法を提案する。
我々のTTRPは、TTランクが1に等しいテンソルトレイン表現によって体系的に構築されている。
テンソルトレイン形式に基づいて、この新しいランダムプロジェクション法は、高次元データセットの次元削減手順を高速化することができる。
論文 参考訳(メタデータ) (2020-10-21T07:31:45Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。