Fugu-MT 論文翻訳(概要): TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models

論文の概要: TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models

arxiv url: http://arxiv.org/abs/2101.11714v1
Date: Mon, 25 Jan 2021 23:19:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-14 19:02:27.390165
Title: TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models
Title（参考訳）: TT-Rec:深層学習推薦モデルのためのテンソルトレイン圧縮
Authors: Chunxing Yin and Bilge Acun and Xing Liu and Carole-Jean Wu
Abstract要約: 深層学習レコメンデーションモデル(dlrms)におけるテーブル埋め込みのメモリ容量は劇的に増加している。 DLRM(TT-Rec)の列車分解の可能性を示す。 TT-Recは、メモリ容量、精度、タイミング性能の3つの重要な設計次元で評価する。
参考スコア（独自算出の注目度）: 5.577715465378262
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The memory capacity of embedding tables in deep learning recommendation models (DLRMs) is increasing dramatically from tens of GBs to TBs across the industry. Given the fast growth in DLRMs, novel solutions are urgently needed, in order to enable fast and efficient DLRM innovations. At the same time, this must be done without having to exponentially increase infrastructure capacity demands. In this paper, we demonstrate the promising potential of Tensor Train decomposition for DLRMs (TT-Rec), an important yet under-investigated context. We design and implement optimized kernels (TT-EmbeddingBag) to evaluate the proposed TT-Rec design. TT-EmbeddingBag is 3 times faster than the SOTA TT implementation. The performance of TT-Rec is further optimized with the batched matrix multiplication and caching strategies for embedding vector lookup operations. In addition, we present mathematically and empirically the effect of weight initialization distribution on DLRM accuracy and propose to initialize the tensor cores of TT-Rec following the sampled Gaussian distribution. We evaluate TT-Rec across three important design space dimensions -- memory capacity, accuracy, and timing performance -- by training MLPerf-DLRM with Criteo's Kaggle and Terabyte data sets. TT-Rec achieves 117 times and 112 times model size compression, for Kaggle and Terabyte, respectively. This impressive model size reduction can come with no accuracy nor training time overhead as compared to the uncompressed baseline.
Abstract（参考訳）: ディープラーニングレコメンデーションモデル(DLRM)への組み込みテーブルのメモリ容量は、業界全体で数十GBからTBへと劇的に増加しています。 DLRMの急速な成長を考えると、迅速かつ効率的なDLRMイノベーションを可能にするために、新しいソリューションが緊急に必要です。同時に、インフラストラクチャのキャパシティ要求を指数的に増やさなくても、これを行う必要があります。本論文では,重要かつ未調査のコンテキストであるDLRM(TT-Rec)に対するTensor Trainの分解の可能性を示す。提案するTT-Rec設計を評価するために,最適化カーネル(TT-EmbeddingBag)を設計,実装する。 TT-EmbeddingBagはSOTA TT実装の3倍高速です。 TT-Recの性能は、ベクトルルックアップ操作を埋め込むためのバッチ行列乗算とキャッシュ戦略によりさらに最適化される。さらに, 重量初期化分布がDLRM精度に及ぼす影響を数学的, 実験的に検討し, サンプルガウス分布に従ってTT-Recのテンソルコアを初期化することを提案する。 mlperf-dlrmをcriteoのkaggleおよびterabyteデータセットでトレーニングすることにより,メモリ容量,精度,タイミングパフォーマンスという3つの重要な設計空間でtt-recを評価する。 TT-Recは、KaggleとTerabyteのモデルサイズ圧縮をそれぞれ117回、112回達成します。この印象的なモデルサイズ削減は、圧縮されていないベースラインと比較して正確さやトレーニング時間のオーバーヘッドを伴わない。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
LoRA-TTT: Low-Rank Test-Time Training for Vision-Language Models [23.218237408724676]
視覚言語モデル(VLM)のための新しいテスト時間訓練(TTT)法であるLoRA-TTTを提案する。テスト期間中にLoRAを導入し,パラメータのみを更新することにより,本手法は単純かつ効果的なTTTアプローチを提供する。本手法は,メモリ消費や実行量を増やすことなく,これらの2つの損失を組み合わせ,多様な領域に適応することができる。
論文参考訳（メタデータ） (2025-02-04T07:40:26Z)
Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。 TPAは、メモリ効率とともに改善されたモデル品質を実現する。本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文参考訳（メタデータ） (2025-01-11T03:37:10Z)
DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-26T02:33:52Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文参考訳（メタデータ） (2024-08-19T01:30:14Z)
Efficient GPT Model Pre-training using Tensor Train Matrix Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。 GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。 GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文参考訳（メタデータ） (2023-06-05T08:38:25Z)
Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文参考訳（メタデータ） (2023-02-28T05:01:01Z)
The trade-offs of model size in large recommendation models : A 10000 $\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文参考訳（メタデータ） (2022-07-21T19:50:34Z)
Provable Tensor-Train Format Tensor Completion by Riemannian Optimization [22.166436026482984]
TT形式テンソル完備化のためのRGradアルゴリズムの収束に関する最初の理論的保証を提供する。また, 逐次2次モーメント法(Sequence second-order moment method)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-27T08:13:58Z)
Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference [33.66462823637363]
最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。 DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
論文参考訳（メタデータ） (2021-08-04T17:28:45Z)
Towards Efficient Tensor Decomposition-Based DNN Model Compression with Optimization Framework [14.27609385208807]
乗算器の交互方向法(ADMM)を用いたテンソル分解に基づくモデル圧縮のための体系的フレームワークを提案する。私たちのフレームワークは非常に一般的で、CNNとRNNの両方で機能します。実験の結果,ADMMに基づくTTフォーマットモデルは非常に高い圧縮性能を示し,精度が高いことがわかった。
論文参考訳（メタデータ） (2021-07-26T18:31:33Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)
A Generic Network Compression Framework for Sequential Recommender Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。 CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文参考訳（メタデータ） (2020-04-21T08:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。