論文の概要: Model Size Reduction Using Frequency Based Double Hashing for
Recommender Systems
- arxiv url: http://arxiv.org/abs/2007.14523v1
- Date: Tue, 28 Jul 2020 23:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:02:00.649036
- Title: Model Size Reduction Using Frequency Based Double Hashing for
Recommender Systems
- Title(参考訳): 周波数ベースダブルハッシュを用いたリコメンダシステムのためのモデルサイズ削減
- Authors: Caojin Zhang, Yicun Liu, Yuanpu Xie, Sofia Ira Ktena, Alykhan Tejani,
Akshay Gupta, Pranay Kumar Myana, Deepak Dilipkumar, Suvadip Paul, Ikuhiro
Ihara, Prasang Upadhyaya, Ferenc Huszar, Wenzhe Shi
- Abstract要約: モデルサイズ削減のための周波数ハッシュ法と2重ハッシュ法を組み合わせたハイブリッドハッシュ法を提案する。
実験の結果,元のベースラインと同等の性能を維持しつつ,モデルサイズを約90%削減できることがわかった。
- 参考スコア(独自算出の注目度): 6.415162722232605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) with sparse input features have been widely used
in recommender systems in industry. These models have large memory requirements
and need a huge amount of training data. The large model size usually entails a
cost, in the range of millions of dollars, for storage and communication with
the inference services. In this paper, we propose a hybrid hashing method to
combine frequency hashing and double hashing techniques for model size
reduction, without compromising performance. We evaluate the proposed models on
two product surfaces. In both cases, experiment results demonstrated that we
can reduce the model size by around 90 % while keeping the performance on par
with the original baselines.
- Abstract(参考訳): 少ない入力機能を持つディープニューラルネットワーク(DNN)は、業界のレコメンデーションシステムで広く利用されている。
これらのモデルには大きなメモリ要件があり、大量のトレーニングデータが必要です。
大規模なモデルサイズは通常、数百万ドルの範囲で、推論サービスとのストレージと通信のためのコストを必要とする。
本稿では,モデルサイズ低減のための周波数ハッシュとダブルハッシュを組み合わせたハイブリッドハッシュ手法を提案する。
提案モデルを2つの製品表面上で評価する。
いずれの場合も,実験結果は,元のベースラインと同等の性能を維持しながら,モデルサイズを約90%削減できることを示した。
関連論文リスト
- Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - PRANC: Pseudo RAndom Networks for Compacting deep models [22.793523211040682]
PRANCはディープモデルの大幅なコンパクト化を可能にする。
本研究では,PRANCを用いて画像分類モデルを構築し,関連する暗黙的ニューラルネットワークをコンパクト化することで画像の圧縮を行う。
論文 参考訳(メタデータ) (2022-06-16T22:03:35Z) - Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks [20.374784902476318]
モデル重み付けにゼロを導入する方法として, モデル精度と計算効率のトレードオフを良好に提供する方法として, プルーニングが有効であることが示されている。
現代のプロセッサには、高速なオンチップスクラッチパッドメモリと、間接的に負荷を発生させ、そのようなメモリ上の操作を格納する集/散乱エンジンが備わっている。
本研究では,スクラッチパッドメモリと集合/散乱エンジンを利用して,ニューラルネットワークの推論を高速化する,新しいスパースパターン(GSパターン)を提案する。
論文 参考訳(メタデータ) (2021-12-20T22:55:45Z) - Reducing the Computational Cost of Deep Generative Models with Binary
Neural Networks [25.084146613277973]
バイナリニューラルネットワークを利用した生成モデルのトレーニングに成功していることを示す。
これにより、モデルの計算コストが大幅に削減される。
本稿では,ResNet VAEモデルとFlow++モデルという,最先端の2つの深層生成モデルについて,これらの手法を効果的にバイナライズできることを実証する。
論文 参考訳(メタデータ) (2020-10-26T10:43:28Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。