論文の概要: Mixed-Precision Embedding Using a Cache
- arxiv url: http://arxiv.org/abs/2010.11305v2
- Date: Fri, 23 Oct 2020 01:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:23:50.795184
- Title: Mixed-Precision Embedding Using a Cache
- Title(参考訳): キャッシュを用いた混合精密埋め込み
- Authors: Jie Amy Yang, Jianyu Huang, Jongsoo Park, Ping Tak Peter Tang, Andrew
Tulloch
- Abstract要約: キャッシュメモリアーキテクチャを用いて,組込みにおける行の大部分を低精度でトレーニングする,組込みテーブルの新たな変更を提案する。
CriteoKaggleデータセットで実行されるオープンソースのディープラーニングレコメンデーションモデル(DLRM)では,INT8の高精度埋め込みテーブルと完全精度キャッシュで3倍のメモリ削減を実現している。
産業規模のモデルとデータセットでは, INT4精度とキャッシュサイズ1%の埋め込みテーブルで, 7倍のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 3.0298877977523144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recommendation systems, practitioners observed that increase in the number
of embedding tables and their sizes often leads to significant improvement in
model performances. Given this and the business importance of these models to
major internet companies, embedding tables for personalization tasks have grown
to terabyte scale and continue to grow at a significant rate. Meanwhile, these
large-scale models are often trained with GPUs where high-performance memory is
a scarce resource, thus motivating numerous work on embedding table compression
during training. We propose a novel change to embedding tables using a cache
memory architecture, where the majority of rows in an embedding is trained in
low precision, and the most frequently or recently accessed rows cached and
trained in full precision. The proposed architectural change works in
conjunction with standard precision reduction and computer arithmetic
techniques such as quantization and stochastic rounding. For an open source
deep learning recommendation model (DLRM) running with Criteo-Kaggle dataset,
we achieve 3x memory reduction with INT8 precision embedding tables and
full-precision cache whose size are 5% of the embedding tables, while
maintaining accuracy. For an industrial scale model and dataset, we achieve
even higher >7x memory reduction with INT4 precision and cache size 1% of
embedding tables, while maintaining accuracy, and 16% end-to-end training
speedup by reducing GPU-to-host data transfers.
- Abstract(参考訳): レコメンデーションシステムでは、組込みテーブルの数とサイズが増加すると、モデルのパフォーマンスが大幅に向上することが多いと、実践者が観察した。
これと、これらのモデルが大手インターネット企業にとって重要なことを考えると、パーソナライズタスク用のテーブルの埋め込みはテラバイト規模に成長し、成長を続けている。
一方、これらの大規模モデルは、ハイパフォーマンスメモリが不足しているgpuでトレーニングされることが多いため、トレーニング中にテーブル圧縮を埋め込む多くの作業が動機となる。
そこで本研究では,キャッシュメモリアーキテクチャを用いて,組込み中の行の大部分が低精度で訓練され,最も頻繁にあるいは最近アクセスされた行がキャッシュされ,完全に精度良く訓練される,組込みテーブルへの新たな変更を提案する。
提案したアーキテクチャ変更は、標準的な精度の低減と量子化や確率的丸めといったコンピュータ演算技術と連携して動作する。
Criteo-Kaggleデータセットで実行されるオープンソースのディープラーニングレコメンデーションモデル(DLRM)では,精度を維持しつつ,組み込みテーブルの5%の大きさのINT8精度の埋め込みテーブルとフル精度のキャッシュで3倍のメモリ削減を実現する。
産業規模のモデルとデータセットでは、精度を維持しつつ、組み込みテーブルの1%をINT4精度とキャッシュサイズで7倍のメモリ削減を実現し、GPUからホストへのデータ転送を減らすことで、エンドツーエンドのトレーニングスピードアップを16%削減する。
関連論文リスト
- Fine-Grained Embedding Dimension Optimization During Training for
Recommender Systems [18.125952266473533]
FIITED(Fine-fine In-Training Embedding Dimension Optimization)
2つの業界モデルの実験は、FIITEDがトレーニングされたモデルの品質を維持しながら、埋め込みのサイズを65%以上削減できることを示している。
論文 参考訳(メタデータ) (2024-01-09T08:04:11Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。
FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。
より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文 参考訳(メタデータ) (2022-05-03T14:51:53Z) - HET: Scaling out Huge Embedding Model Training via Cache-enabled
Distributed Framework [17.114812060566766]
我々は,大規模な埋め込みモデルトレーニングのスケーラビリティを大幅に向上させる新しいシステムフレームワークであるHETを提案する。
HETは、組込み通信の削減を最大88%達成し、最先端のベースラインよりも最大20.68倍の性能向上を実現している。
論文 参考訳(メタデータ) (2021-12-14T08:18:10Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - High-Performance Training by Exploiting Hot-Embeddings in Recommendation
Systems [2.708848417398231]
推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。
これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。
これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。
本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
論文 参考訳(メタデータ) (2021-03-01T01:43:26Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。