Fugu-MT 論文翻訳(概要): Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems

論文の概要: Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems

arxiv url: http://arxiv.org/abs/2103.06124v1
Date: Wed, 24 Feb 2021 19:55:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 00:50:26.209076
Title: Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems
Title（参考訳）: 効率的なレコメンデーションシステムにおける埋め込みのための意味的制約付きメモリ割り当て(SCMA)
Authors: Aditya Desai, Yanzhou Pan, Kuangyuan Sun, Li Chou, Anshumali Shrivastava
Abstract要約: ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。性能を維持しながらメモリフットプリントの大幅な削減を示す。
参考スコア（独自算出の注目度）: 27.419109620575313
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning-based models are utilized to achieve state-of-the-art performance for recommendation systems. A key challenge for these models is to work with millions of categorical classes or tokens. The standard approach is to learn end-to-end, dense latent representations or embeddings for each token. The resulting embeddings require large amounts of memory that blow up with the number of tokens. Training and inference with these models create storage, and memory bandwidth bottlenecks leading to significant computing and energy consumption when deployed in practice. To this end, we present the problem of \textit{Memory Allocation} under budget for embeddings and propose a novel formulation of memory shared embedding, where memory is shared in proportion to the overlap in semantic information. Our formulation admits a practical and efficient randomized solution with Locality sensitive hashing based Memory Allocation (LMA). We demonstrate a significant reduction in the memory footprint while maintaining performance. In particular, our LMA embeddings achieve the same performance compared to standard embeddings with a 16$\times$ reduction in memory footprint. Moreover, LMA achieves an average improvement of over 0.003 AUC across different memory regimes than standard DLRM models on Criteo and Avazu datasets
Abstract（参考訳）: ディープラーニングに基づくモデルは、レコメンデーションシステムにおける最先端のパフォーマンスを達成するために利用される。これらのモデルの鍵となる課題は、数百万のカテゴリクラスやトークンを扱うことです。標準的なアプローチは、各トークンのエンドツーエンド、濃密な潜在表現、あるいは埋め込みを学ぶことである。結果として生じる埋め込みは、トークンの数で爆発する大量のメモリを必要とする。これらのモデルによるトレーニングと推論は、ストレージとメモリ帯域幅のボトルネックを生み出し、実際にデプロイされると、かなりのコンピューティングとエネルギー消費につながる。そこで本研究では,組込みの予算下での \textit{Memory Allocation} の問題と,セマンティック情報の重複に比例してメモリを共有するメモリ共有埋め込みの新たな定式化を提案する。提案方式は,lma(locality sensitive hashing based memory allocation)を用いた実用的かつ効率的なランダム化ソリューションである。性能を維持しながらメモリフットプリントの大幅な削減を示す。特に、我々のlma組込みは、メモリフットプリントが16$\times$削減された標準組込みと同等の性能を達成しています。さらに、LMAは、CriteoとAvazuデータセットの標準DLRMモデルよりも、異なるメモリレシエーション間で0.003 AUCの平均的な改善を実現している。

関連論文リスト

Dynamic Dual Buffer with Divide-and-Conquer Strategy for Online Continual Learning [10.599650191041217]
オンライン連続学習(OCL)は、バッチからバッチまでのオンラインフォーマットで新しいデータが到着する複雑な学習環境を提供する。本稿では、動的情報を保持するための短期記憶システムと、永続的な知識をアーカイブする長期記憶システムを組み込んだ革新的なメモリフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T16:57:04Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
Cost-Efficient Continual Learning with Sufficient Exemplar Memory [55.77835198580209]
連続学習(CL)研究は通常、非常に制約のあるメモリ資源を前提としている。本研究では,メモリが豊富である新しい環境におけるCLについて検討する。提案手法は,計算コストを既存手法の4/3に削減しつつ,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。 MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文参考訳（メタデータ） (2024-07-16T18:59:49Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。 CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-21T01:00:17Z)
Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。 Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文参考訳（メタデータ） (2024-01-24T03:03:17Z)
Frustratingly Simple Memory Efficiency for Pre-trained Language Models via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文参考訳（メタデータ） (2023-09-15T19:00:00Z)
MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文参考訳（メタデータ） (2023-04-19T06:06:06Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Kanerva++: extending The Kanerva Machine with differentiable, locally block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文参考訳（メタデータ） (2021-02-20T18:40:40Z)
Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。 i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文参考訳（メタデータ） (2021-02-15T18:19:07Z)
Distributed Associative Memory Network with Memory Refreshing Loss [5.5792083698526405]
メモリリフレッシングロス(MRL)を用いた分散連想メモリアーキテクチャ(DAM)について紹介する。人間の脳の動作にインスパイアされた私たちのフレームワークは、複数のメモリブロックにまたがる分散表現でデータをエンコードします。 MRLにより、記憶されたメモリコンテンツから入力データを再生することにより、MANNは、入力データとタスク目的との関連性を強化することができる。
論文参考訳（メタデータ） (2020-07-21T07:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。