論文の概要: Sparser Training for On-Device Recommendation Systems
- arxiv url: http://arxiv.org/abs/2411.12205v1
- Date: Tue, 19 Nov 2024 03:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:35:09.962852
- Title: Sparser Training for On-Device Recommendation Systems
- Title(参考訳): オンデバイスレコメンデーションシステムのためのスペーサートレーニング
- Authors: Yunke Qu, Liang Qu, Tong Chen, Xiangyu Zhao, Jianxin Li, Hongzhi Yin,
- Abstract要約: 動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。
これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
- 参考スコア(独自算出の注目度): 50.74019319100728
- License:
- Abstract: Recommender systems often rely on large embedding tables that map users and items to dense vectors of uniform size, leading to substantial memory consumption and inefficiencies. This is particularly problematic in memory-constrained environments like mobile and Web of Things (WoT) applications, where scalability and real-time performance are critical. Various research efforts have sought to address these issues. Although embedding pruning methods utilizing Dynamic Sparse Training (DST) stand out due to their low training and inference costs, consistent sparsity, and end-to-end differentiability, they face key challenges. Firstly, they typically initializes the mask matrix, which is used to prune redundant parameters, with random uniform sparse initialization. This strategy often results in suboptimal performance as it creates unstructured and inefficient connections. Secondly, they tend to favor the users/items sampled in the single batch immediately before weight exploration when they reactivate pruned parameters with large gradient magnitudes, which does not necessarily improve the overall performance. Thirdly, while they use sparse weights during forward passes, they still need to compute dense gradients during backward passes. In this paper, we propose SparseRec, an lightweight embedding method based on DST, to address these issues. Specifically, SparseRec initializes the mask matrix using Nonnegative Matrix Factorization. It accumulates gradients to identify the inactive parameters that can better improve the model performance after activation. Furthermore, it avoids dense gradients during backpropagation by sampling a subset of important vectors. Gradients are calculated only for parameters in this subset, thus maintaining sparsity during training in both forward and backward passes.
- Abstract(参考訳): レコメンダシステムは、ユーザやアイテムを一様サイズの密度の高いベクトルにマッピングする大きな埋め込みテーブルに依存しており、かなりのメモリ消費と非効率をもたらす。
これは、スケーラビリティとリアルタイムパフォーマンスが重要なモバイルやWeb of Things(WoT)アプリケーションのようなメモリ制約のある環境において特に問題となる。
これらの問題に対処するための様々な研究努力が進められている。
動的スパーストレーニング(DST)を用いたプルーニング手法は,トレーニングコストの低減や推論コストの低減,一貫した分散性,エンドツーエンドの差別化といった面から際立っているが,大きな課題に直面している。
第一に、それらは通常、ランダムな均一なスパース初期化を伴って、冗長なパラメータを誘発するために使用されるマスク行列を初期化する。
この戦略は、非構造的で非効率な接続を生成するため、しばしば準最適性能をもたらす。
第二に、重量探索の直前にサンプリングされたユーザ/イテムを、大きな勾配のパラメータで再活性化することで、全体的なパフォーマンスを必ずしも改善しない、という傾向があります。
第3に、前方通過時にスパースウェイトを使用するが、後方通過時に密度勾配を計算する必要がある。
本稿では,DSTに基づく軽量な埋め込み手法であるSparseRecを提案する。
具体的には、SparseRecは非負行列因子化を用いてマスク行列を初期化する。
アクティベーション後のモデルパフォーマンスを改善するために、不活性パラメータを特定するために勾配を蓄積する。
さらに、重要なベクトルの部分集合をサンプリングすることで、バックプロパゲーション中の密度勾配を回避する。
このサブセットのパラメータに対してのみグラディエントが計算され、フォワードパスとバックパスの両方でトレーニング中の間隔が維持される。
関連論文リスト
- Navigating Extremes: Dynamic Sparsity in Large Output Space [5.231219025536679]
動的スパーストレーニング(DST)は、効率的なモデルを生成するための訓練後プルーニングの代替として登場した。
我々は、半構造化スパース訓練の最近の進歩を活用し、大きな出力空間を持つ分類領域にDSTを適用した。
スパース分類器から高密度テキストエンコーダへの勾配流は、優れた入力表現の学習を困難にしている。
論文 参考訳(メタデータ) (2024-11-05T15:19:29Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文 参考訳(メタデータ) (2023-09-15T19:00:00Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - What to Prune and What Not to Prune at Initialization [0.0]
トレーニング後のドロップアウトベースのアプローチは、高いスパシティを実現する。
ネットワークの計算コストのスケーリングに関しては,初期化プルーニングの方が有効だ。
目標は、パフォーマンスを維持しながら、より高い疎性を達成することです。
論文 参考訳(メタデータ) (2022-09-06T03:48:10Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Data-driven Weight Initialization with Sylvester Solvers [72.11163104763071]
本稿では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
論文 参考訳(メタデータ) (2021-05-02T07:33:16Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。