論文の概要: Learning Compressed Embeddings for On-Device Inference
- arxiv url: http://arxiv.org/abs/2203.10135v1
- Date: Fri, 18 Mar 2022 19:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 04:07:20.440050
- Title: Learning Compressed Embeddings for On-Device Inference
- Title(参考訳): デバイス上での推論のための圧縮埋め込み学習
- Authors: Niketan Pansare, Jay Katukuri, Aditya Arora, Frank Cipollone, Riyaaz
Shaik, Noyan Tokgozoglu, Chandru Venkataraman
- Abstract要約: ディープラーニングでは、埋め込みは言葉、アプリ、映画などのカテゴリーの実体を表現するために広く使われている。
レコメンデーションドメインでは、与えられたカテゴリは数十万のエンティティを持つことができ、その埋め込み層はギガバイトのメモリを消費することができる。
本稿では,各エンティティを独自の埋め込みにマッピングしながら,埋め込みテーブルのサイズを小さくする新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.5641861018746734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning, embeddings are widely used to represent categorical
entities such as words, apps, and movies. An embedding layer maps each entity
to a unique vector, causing the layer's memory requirement to be proportional
to the number of entities. In the recommendation domain, a given category can
have hundreds of thousands of entities, and its embedding layer can take
gigabytes of memory. The scale of these networks makes them difficult to deploy
in resource constrained environments. In this paper, we propose a novel
approach for reducing the size of an embedding table while still mapping each
entity to its own unique embedding. Rather than maintaining the full embedding
table, we construct each entity's embedding "on the fly" using two separate
embedding tables. The first table employs hashing to force multiple entities to
share an embedding. The second table contains one trainable weight per entity,
allowing the model to distinguish between entities sharing the same embedding.
Since these two tables are trained jointly, the network is able to learn a
unique embedding per entity, helping it maintain a discriminative capability
similar to a model with an uncompressed embedding table. We call this approach
MEmCom (Multi-Embedding Compression). We compare with state-of-the-art model
compression techniques for multiple problem classes including classification
and ranking. On four popular recommender system datasets, MEmCom had a 4%
relative loss in nDCG while compressing the input embedding sizes of our
recommendation models by 16x, 4x, 12x, and 40x. MEmCom outperforms the
state-of-the-art techniques, which achieved 16%, 6%, 10%, and 8% relative loss
in nDCG at the respective compression ratios. Additionally, MEmCom is able to
compress the RankNet ranking model by 32x on a dataset with millions of users'
interactions with games while incurring only a 1% relative loss in nDCG.
- Abstract(参考訳): ディープラーニングでは、埋め込みは単語、アプリ、映画といったカテゴリーの実体を表現するために広く使われている。
埋め込み層は各エンティティをユニークなベクトルにマッピングし、レイヤのメモリ要求はエンティティの数に比例する。
レコメンデーションドメインでは、与えられたカテゴリは数十万のエンティティを持ち、その埋め込み層はギガバイトのメモリを消費することができる。
これらのネットワークの規模は、リソース制約のある環境でのデプロイを困難にしている。
本稿では,各エンティティを独自の埋め込みにマッピングしながら,埋め込みテーブルのサイズを小さくする新しい手法を提案する。
完全な埋め込みテーブルを維持する代わりに、2つの別々の埋め込みテーブルを使用して、各エンティティの埋め込みを「オンザフライ」に構築します。
最初のテーブルはハッシュを使って複数のエンティティに埋め込みを強制する。
第2のテーブルは、エンティティ毎に1つのトレーニング可能な重みを含み、モデルが同じ埋め込みを共有するエンティティを区別できるようにする。
これら2つのテーブルは共同でトレーニングされるため、ネットワークはエンティティごとにユニークな埋め込みを学習することができ、非圧縮埋め込みテーブルを持つモデルと同様の識別能力を維持することができる。
このアプローチをMEmCom(Multi-Embedding Compression)と呼ぶ。
分類とランキングを含む複数の問題クラスに対する最先端モデル圧縮手法との比較を行った。
4つの人気のあるレコメンダシステムデータセットにおいて、memcom は ndcg の相対的損失を 4% としつつ、我々のレコメンデーションモデルの入力埋め込みサイズを 16x, 4x, 12x, 40x に圧縮した。
MEmComは最先端技術よりも優れており、それぞれの圧縮比でnDCGの16%、6%、10%、8%の相対損失を達成した。
さらに、MEmCom は nDCG で1% の相対損失しかたらさず、何百万ものユーザのゲームとのインタラクションを持つデータセット上で RankNet ランキングモデルを 32 倍圧縮することができる。
関連論文リスト
- KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Head-wise Shareable Attention for Large Language Models [56.92068213969036]
大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限している。
ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。
本稿では,大規模言語モデルにおける頭部的共通性に着目した視点を示す。
論文 参考訳(メタデータ) (2024-02-19T04:19:36Z) - Mem-Rec: Memory Efficient Recommendation System using Alternative
Representation [6.542635536704625]
MEM-RECは、テーブルを埋め込むための新しい代替表現手法である。
MEM-RECはレコメンデーション品質を維持するだけでなく、埋め込み遅延を改善することができる。
論文 参考訳(メタデータ) (2023-05-12T02:36:07Z) - Learning to Collide: Recommendation System Model Compression with
Learned Hash Functions [4.6994057182972595]
ディープレコメンデーションモデルのキーとなる特徴は、埋め込みテーブルの膨大なメモリ要求である。
モデルサイズを減らすための一般的なテクニックは、すべてのカテゴリ変数識別子(ID)を小さな空間にハッシュすることである。
このハッシュにより、埋め込みテーブルに格納しなければならないユニークな表現の数が減少し、サイズが減少する。
我々は代わりに、意味的に類似したID間の衝突を促進する新しいマッピング関数であるLearned Hash Functionsを導入する。
論文 参考訳(メタデータ) (2022-03-28T06:07:30Z) - Modeling Heterogeneous Hierarchies with Relation-specific Hyperbolic
Cones [64.75766944882389]
知識グラフにおける複数の階層的および非階層的関係を同時にモデル化できるKG埋め込みモデルであるConE(Cone Embedding)を提案する。
特に、ConEは双曲埋め込み空間の異なる部分空間における円錐包含制約を用いて、複数の異種階層をキャプチャする。
我々のアプローチでは、WN18RRで45.3%、DDB14で16.1%の新しい最先端hits@1が得られる(0.231 MRR)。
論文 参考訳(メタデータ) (2021-10-28T07:16:08Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Learning Effective and Efficient Embedding via an Adaptively-Masked
Twins-based Layer [15.403616481651383]
本稿では,標準埋め込み層の背後に適応型ツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツ
AMTLは、埋め込みベクトルごとに望ましくない次元をマスクするマスクベクトルを生成する。
マスクベクトルは次元の選択に柔軟性をもたらし、提案した層は訓練されていないDLRMや訓練されていないDLRMに簡単に追加できる。
論文 参考訳(メタデータ) (2021-08-24T11:50:49Z) - Mixed-Precision Embedding Using a Cache [3.0298877977523144]
キャッシュメモリアーキテクチャを用いて,組込みにおける行の大部分を低精度でトレーニングする,組込みテーブルの新たな変更を提案する。
CriteoKaggleデータセットで実行されるオープンソースのディープラーニングレコメンデーションモデル(DLRM)では,INT8の高精度埋め込みテーブルと完全精度キャッシュで3倍のメモリ削減を実現している。
産業規模のモデルとデータセットでは, INT4精度とキャッシュサイズ1%の埋め込みテーブルで, 7倍のメモリ削減を実現している。
論文 参考訳(メタデータ) (2020-10-21T20:49:54Z) - Learning to Embed Categorical Features without Embedding Tables for
Recommendation [22.561967284428707]
本稿では,組込みテーブルを深層埋め込みネットワークに置き換え,組込みを高速に計算する別の組込みフレームワークを提案する。
エンコーディングモジュールは決定論的であり、学習不能であり、ストレージが不要である一方、埋め込みネットワークはトレーニング時間中に更新され、埋め込み生成が学習される。
論文 参考訳(メタデータ) (2020-10-21T06:37:28Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。