論文の概要: Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference
- arxiv url: http://arxiv.org/abs/2108.02191v1
- Date: Wed, 4 Aug 2021 17:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:23:00.380109
- Title: Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference
- Title(参考訳): CriteoTBベンチマークMLPerf DLRMモデルのためのランダムオフセットブロック埋め込みアレイ(ROBE) : 1000$\times$圧縮と2.7$\times$高速推論
- Authors: Aditya Desai, Li Chou, Anshumali Shrivastava
- Abstract要約: 最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。
ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
- 参考スコア(独自算出の注目度): 33.66462823637363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning for recommendation data is the one of the most pervasive and
challenging AI workload in recent times. State-of-the-art recommendation models
are one of the largest models rivalling the likes of GPT-3 and Switch
Transformer. Challenges in deep learning recommendation models (DLRM) stem from
learning dense embeddings for each of the categorical values. These embedding
tables in industrial scale models can be as large as hundreds of terabytes.
Such large models lead to a plethora of engineering challenges, not to mention
prohibitive communication overheads, and slower training and inference times.
Of these, slower inference time directly impacts user experience. Model
compression for DLRM is gaining traction and the community has recently shown
impressive compression results. In this paper, we present Random Offset Block
Embedding Array (ROBE) as a low memory alternative to embedding tables which
provide orders of magnitude reduction in memory usage while maintaining
accuracy and boosting execution speed. ROBE is a simple fundamental approach in
improving both cache performance and the variance of randomized hashing, which
could be of independent interest in itself. We demonstrate that we can
successfully train DLRM models with same accuracy while using $1000 \times$
less memory. A $1000\times$ compressed model directly results in faster
inference without any engineering. In particular, we show that we can train
DLRM model using ROBE Array of size 100MB on a single GPU to achieve AUC of
0.8025 or higher as required by official MLPerf CriteoTB benchmark DLRM model
of 100GB while achieving about $2.7\times$ (170\%) improvement in inference
throughput.
- Abstract(参考訳): 推薦データのためのディープラーニングは、近年で最も広く普及し、挑戦的なAIワークロードのひとつだ。
最先端のレコメンデーションモデルはgpt-3やswitch transformerに匹敵する最大のモデルの1つである。
ディープラーニングレコメンデーションモデル(DLRM)の課題は、それぞれのカテゴリ値に密着した埋め込みを学習することにある。
これらのインダストリアルスケールモデルへの埋め込みテーブルは、数百テラバイトにも及ぶ。
このような大規模モデルは、通信オーバーヘッドの制限やトレーニングや推論時間の短縮など、エンジニアリング上の課題を数多く抱えています。
これらのうち、推論時間が遅いことはユーザエクスペリエンスに直接影響します。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
本稿では,メモリ使用量を大幅に削減し,精度を維持しつつ実行速度を向上させる埋め込みテーブルに代わる低メモリとして,ランダムオフセットブロック埋め込みアレイ(robe)を提案する。
ROBEは、キャッシュパフォーマンスとランダム化ハッシュのばらつきの両方を改善するための、単純な基本的なアプローチである。
DLRMモデルと同じ精度で、1000ドル以上のメモリを使わずに、うまくトレーニングできることを実証した。
1000\times$圧縮モデルは、直接エンジニアリングなしでより高速な推論をもたらす。
特に,1つのGPU上でサイズ100MBのROBE Arrayを用いてDLRMモデルをトレーニングし,公式のMLPerf CriteoTBベンチマークのDLRMモデルである100GBのAUCを約2.7\times$ (170\%)改善しながら,0.8025以上のAUCを実現することを示す。
関連論文リスト
- DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T02:33:52Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文 参考訳(メタデータ) (2022-09-02T17:38:03Z) - The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。
スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文 参考訳(メタデータ) (2022-07-21T19:50:34Z) - Efficient model compression with Random Operation Access Specific Tile
(ROAST) hashing [35.67591281350068]
本稿では,Random Operation Access Specific Tile(ROAST)ハッシュ法を提案する。
ROASTでは、最初の圧縮BERTを提示します。
トランスフォーマーのようなユニバーサルアーキテクチャ上のこれらの圧縮レベルは、モバイルやエッジデバイスのようなリソース制約のあるデバイスへのSOTAモデル展開の将来を約束している。
論文 参考訳(メタデータ) (2022-07-21T18:31:17Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models [5.577715465378262]
深層学習レコメンデーションモデル(dlrms)におけるテーブル埋め込みのメモリ容量は劇的に増加している。
DLRM(TT-Rec)の列車分解の可能性を示す。
TT-Recは、メモリ容量、精度、タイミング性能の3つの重要な設計次元で評価する。
論文 参考訳(メタデータ) (2021-01-25T23:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。