論文の概要: Low Rank Field-Weighted Factorization Machines for Low Latency Item Recommendation
- arxiv url: http://arxiv.org/abs/2408.00801v1
- Date: Mon, 22 Jul 2024 14:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:18:32.812123
- Title: Low Rank Field-Weighted Factorization Machines for Low Latency Item Recommendation
- Title(参考訳): 低レイテンシ項目推薦のための低ランクフィールド重み付き因子化装置
- Authors: Alex Shtoff, Michael Viderman, Naama Haramaty-Krasne, Oren Somekh, Ariel Raviv, Tularam Ban,
- Abstract要約: ファクトリゼーションマシン(FM)の変種は、厳格なスループットとレイテンシ要求の下で動作するレコメンデーションシステムで広く使われている。
対角および対称低ランク分解を用いたFwFMにおけるプルーニングの代替法を提案する。
攻撃的なランク低下は、精度と項目推薦速度の両方において、同様にアグレッシブプルーニングに優れることを示す。
- 参考スコア(独自算出の注目度): 2.2202705655178745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Factorization machine (FM) variants are widely used in recommendation systems that operate under strict throughput and latency requirements, such as online advertising systems. FMs are known both due to their ability to model pairwise feature interactions while being resilient to data sparsity, and their computational graphs that facilitate fast inference and training. Moreover, when items are ranked as a part of a query for each incoming user, these graphs facilitate computing the portion stemming from the user and context fields only once per query. Consequently, in terms of inference cost, the number of user or context fields is practically unlimited. More advanced FM variants, such as FwFM, provide better accuracy by learning a representation of field-wise interactions, but require computing all pairwise interaction terms explicitly. The computational cost during inference is proportional to the square of the number of fields, including user, context, and item. When the number of fields is large, this is prohibitive in systems with strict latency constraints. To mitigate this caveat, heuristic pruning of low intensity field interactions is commonly used to accelerate inference. In this work we propose an alternative to the pruning heuristic in FwFMs using a diagonal plus symmetric low-rank decomposition. Our technique reduces the computational cost of inference, by allowing it to be proportional to the number of item fields only. Using a set of experiments on real-world datasets, we show that aggressive rank reduction outperforms similarly aggressive pruning, both in terms of accuracy and item recommendation speed. We corroborate our claim of faster inference experimentally, both via a synthetic test, and by having deployed our solution to a major online advertising system. The code to reproduce our experimental results is at https://github.com/michaelviderman/pytorch-fm/tree/dev.
- Abstract(参考訳): ファクトリゼーションマシン(FM)の変種は、オンライン広告システムのような厳格なスループットと遅延要求の下で機能するレコメンデーションシステムで広く使われている。
FMは、データ空間に耐性を持ちながら、ペアワイズな特徴相互作用をモデル化する能力と、高速な推論とトレーニングを容易にする計算グラフの両方で知られている。
さらに、入力するユーザ毎のクエリの一部として項目がランク付けされる場合、これらのグラフは、クエリ毎に1回だけ、ユーザとコンテキストフィールドから発生する部分の計算を容易にする。
したがって、推論コストの面では、ユーザフィールドやコンテキストフィールドの数は事実上無制限である。
FwFMのようなより高度なFM変種は、フィールドワイドな相互作用の表現を学習することでより良い精度を提供するが、全てのペアワイドな相互作用の項を明示的に計算する必要がある。
推論中の計算コストは、ユーザ、コンテキスト、アイテムを含むフィールドの2乗に比例する。
フィールド数が大きければ、これは厳格なレイテンシ制約を持つシステムでは禁止される。
この注意を和らげるために、低強度場相互作用のヒューリスティックプルーニングが一般的に推論を加速するために使用される。
本研究では,FwFMにおけるプルーニングヒューリスティックの代替として,対角および対称な低ランク分解法を提案する。
提案手法は,項目数のみに比例して推論の計算コストを削減する。
実世界のデータセットにおける一連の実験を用いて、攻撃的なランクの低減は、精度と項目推薦速度の両方において、同様に攻撃的なプルーニングよりも優れていることを示す。
我々は、合成テストと、主要なオンライン広告システムにソリューションをデプロイすることで、より高速な推論の主張を実験的に裏付ける。
実験結果を再現するコードはhttps://github.com/michaelviderman/pytorch-fm/tree/devです。
関連論文リスト
- Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。
実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文 参考訳(メタデータ) (2024-06-01T13:10:35Z) - SignSGD with Federated Voting [69.06621279967865]
SignSGD with majority voting (signSGD-MV) は1ビット量子化により通信コストを大幅に削減できる効果的な分散学習アルゴリズムである。
我々は、テキストフェデレート投票(signSGD-FV)を用いた新しいサインSGDを提案する。
連合投票の考え方は、学習可能な重量を利用して多数決を行うことである。
提案手法は, エッジデバイスが不均一なミニバッチサイズを使用する場合でも, 理論的収束を保証する。
論文 参考訳(メタデータ) (2024-03-25T02:32:43Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - An Incentive Mechanism for Federated Learning Based on Multiple Resource
Exchange [5.385462087305977]
Federated Learning(FL)は、機械学習におけるプライバシー問題に対処する分散機械学習パラダイムである。
ユーザをモデルオーナ(MO)とデータオーナ(DO)の2つの役割に分類する。
提案した協調計算フレームワークは、FLタスクの完了までの全体の時間を最小化しつつ、95%以上の精度を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T12:28:37Z) - Asynchronous Local Computations in Distributed Bayesian Learning [8.516532665507835]
本稿では,高速な計算と通信オーバヘッドを同時に低減するために,ゴシップに基づく通信を提案する。
我々は、特に低データ範囲において、より高速な初期収束と性能精度の向上を観察する。
UCI MLレポジトリのガンマ望遠鏡とmHealthデータセットで,それぞれ平均78%,90%以上の分類精度を達成した。
論文 参考訳(メタデータ) (2023-11-06T20:11:41Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Does Continual Learning Equally Forget All Parameters? [55.431048995662714]
連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。
ニューラルネットワークのどのモジュールが、CL中のトレーニングダイナミクスを調査することによって忘れやすいかを検討する。
CL中に周期的にトリガされるFPFの1段階ごとのリプレイを完全に取り除き,わずか$k$で置き換える,より効率的でシンプルな手法を提案する。
論文 参考訳(メタデータ) (2023-04-09T04:36:24Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - $FM^2$: Field-matrixed Factorization Machines for Recommender Systems [9.461169933697379]
フィールド情報を効果的かつ効率的にモデル化するための新しい手法を提案する。
提案手法はFwFMの直接改良であり、FmFM(Field-matrixed Factorization Machines)と呼ばれている。
論文 参考訳(メタデータ) (2021-02-20T00:03:37Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。