論文の概要: TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models
- arxiv url: http://arxiv.org/abs/2101.11714v1
- Date: Mon, 25 Jan 2021 23:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:02:27.390165
- Title: TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models
- Title(参考訳): TT-Rec:深層学習推薦モデルのためのテンソルトレイン圧縮
- Authors: Chunxing Yin and Bilge Acun and Xing Liu and Carole-Jean Wu
- Abstract要約: 深層学習レコメンデーションモデル(dlrms)におけるテーブル埋め込みのメモリ容量は劇的に増加している。
DLRM(TT-Rec)の列車分解の可能性を示す。
TT-Recは、メモリ容量、精度、タイミング性能の3つの重要な設計次元で評価する。
- 参考スコア(独自算出の注目度): 5.577715465378262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The memory capacity of embedding tables in deep learning recommendation
models (DLRMs) is increasing dramatically from tens of GBs to TBs across the
industry. Given the fast growth in DLRMs, novel solutions are urgently needed,
in order to enable fast and efficient DLRM innovations. At the same time, this
must be done without having to exponentially increase infrastructure capacity
demands. In this paper, we demonstrate the promising potential of Tensor Train
decomposition for DLRMs (TT-Rec), an important yet under-investigated context.
We design and implement optimized kernels (TT-EmbeddingBag) to evaluate the
proposed TT-Rec design. TT-EmbeddingBag is 3 times faster than the SOTA TT
implementation. The performance of TT-Rec is further optimized with the batched
matrix multiplication and caching strategies for embedding vector lookup
operations. In addition, we present mathematically and empirically the effect
of weight initialization distribution on DLRM accuracy and propose to
initialize the tensor cores of TT-Rec following the sampled Gaussian
distribution. We evaluate TT-Rec across three important design space dimensions
-- memory capacity, accuracy, and timing performance -- by training MLPerf-DLRM
with Criteo's Kaggle and Terabyte data sets. TT-Rec achieves 117 times and 112
times model size compression, for Kaggle and Terabyte, respectively. This
impressive model size reduction can come with no accuracy nor training time
overhead as compared to the uncompressed baseline.
- Abstract(参考訳): ディープラーニングレコメンデーションモデル(DLRM)への組み込みテーブルのメモリ容量は、業界全体で数十GBからTBへと劇的に増加しています。
DLRMの急速な成長を考えると、迅速かつ効率的なDLRMイノベーションを可能にするために、新しいソリューションが緊急に必要です。
同時に、インフラストラクチャのキャパシティ要求を指数的に増やさなくても、これを行う必要があります。
本論文では,重要かつ未調査のコンテキストであるDLRM(TT-Rec)に対するTensor Trainの分解の可能性を示す。
提案するTT-Rec設計を評価するために,最適化カーネル(TT-EmbeddingBag)を設計,実装する。
TT-EmbeddingBagはSOTA TT実装の3倍高速です。
TT-Recの性能は、ベクトルルックアップ操作を埋め込むためのバッチ行列乗算とキャッシュ戦略によりさらに最適化される。
さらに, 重量初期化分布がDLRM精度に及ぼす影響を数学的, 実験的に検討し, サンプルガウス分布に従ってTT-Recのテンソルコアを初期化することを提案する。
mlperf-dlrmをcriteoのkaggleおよびterabyteデータセットでトレーニングすることにより,メモリ容量,精度,タイミングパフォーマンスという3つの重要な設計空間でtt-recを評価する。
TT-Recは、KaggleとTerabyteのモデルサイズ圧縮をそれぞれ117回、112回達成します。
この印象的なモデルサイズ削減は、圧縮されていないベースラインと比較して正確さやトレーニング時間のオーバーヘッドを伴わない。
関連論文リスト
- DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T02:33:52Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。
スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文 参考訳(メタデータ) (2022-07-21T19:50:34Z) - Provable Tensor-Train Format Tensor Completion by Riemannian
Optimization [22.166436026482984]
TT形式テンソル完備化のためのRGradアルゴリズムの収束に関する最初の理論的保証を提供する。
また, 逐次2次モーメント法(Sequence second-order moment method)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-27T08:13:58Z) - Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference [33.66462823637363]
最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。
ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
論文 参考訳(メタデータ) (2021-08-04T17:28:45Z) - Towards Efficient Tensor Decomposition-Based DNN Model Compression with
Optimization Framework [14.27609385208807]
乗算器の交互方向法(ADMM)を用いたテンソル分解に基づくモデル圧縮のための体系的フレームワークを提案する。
私たちのフレームワークは非常に一般的で、CNNとRNNの両方で機能します。
実験の結果,ADMMに基づくTTフォーマットモデルは非常に高い圧縮性能を示し,精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-07-26T18:31:33Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。