論文の概要: A Bag of Tricks for Scaling CPU-based Deep FFMs to more than 300m Predictions per Second
- arxiv url: http://arxiv.org/abs/2407.10115v1
- Date: Sun, 14 Jul 2024 08:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:28:46.603223
- Title: A Bag of Tricks for Scaling CPU-based Deep FFMs to more than 300m Predictions per Second
- Title(参考訳): CPUベースのDeep FFMを毎秒300万以上の予測にスケールするためのトリックのバグ
- Authors: Blaž Škrlj, Benjamin Ben-Shalom, Grega Gašperšič, Adi Schwartz, Ramzi Hoseisi, Naama Ziporin, Davorin Kopič, Andraž Tori,
- Abstract要約: フィールド認識ファクトリゼーションマシン(FFM)はクリックスルー率予測の強力なモデルとして登場した。
我々は、社内のRustベースのDeep FFM実装を詳細に分析し、CPUのみのマルチデータセンタスケールへの展開について詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Field-aware Factorization Machines (FFMs) have emerged as a powerful model for click-through rate prediction, particularly excelling in capturing complex feature interactions. In this work, we present an in-depth analysis of our in-house, Rust-based Deep FFM implementation, and detail its deployment on a CPU-only, multi-data-center scale. We overview key optimizations devised for both training and inference, demonstrated by previously unpublished benchmark results in efficient model search and online training. Further, we detail an in-house weight quantization that resulted in more than an order of magnitude reduction in bandwidth footprint related to weight transfers across data-centres. We disclose the engine and associated techniques under an open-source license to contribute to the broader machine learning community. This paper showcases one of the first successful CPU-only deployments of Deep FFMs at such scale, marking a significant stride in practical, low-footprint click-through rate prediction methodologies.
- Abstract(参考訳): フィールド認識ファクトリゼーションマシン(FFM)はクリックスルー率予測の強力なモデルとして登場し、特に複雑な特徴の相互作用を捉えるのに優れている。
本稿では、社内のRustベースのDeep FFM実装を詳細に分析し、CPUのみのマルチデータセンタスケールへの展開について詳述する。
従来未発表のベンチマークの結果から,効率的なモデル検索とオンライントレーニングの両立を図った。
さらに、データ中心間の重み移動に関連する帯域幅のフットプリントの桁違いの削減をもたらす、社内での重み量子化について詳述する。
我々は、より広範な機械学習コミュニティに貢献するために、オープンソースライセンスの下でエンジンと関連するテクニックを開示する。
本稿では、Dep FFMのCPUのみの展開をこのような規模で成功させた最初の例を示し、実用的で低フットプリントのクリックスルー率予測手法において重要な一歩を踏み出した。
関連論文リスト
- Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - MAP: A Model-agnostic Pretraining Framework for Click-through Rate
Prediction [39.48740397029264]
本稿では,多分野分類データに特徴的破損と回復を適用したMAP(Model-Agnostic Pretraining)フレームワークを提案する。
マスク付き特徴予測(RFD)と代替特徴検出(RFD)の2つの実用的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-08-03T12:55:55Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Inter-case Predictive Process Monitoring: A candidate for Quantum
Machine Learning? [0.0]
この研究は、最近のケース間予測プロセスモニタリングの進歩に基づいている。
予測精度に対するケース間機能の影響を総合的にベンチマークする。
量子機械学習モデルが含まれており、古典的なモデルに勝るものと期待されている。
BPIチャレンジによる実世界のトレーニングデータの評価は、ケース間の特徴が精度の4%以上向上していることを示している。
論文 参考訳(メタデータ) (2023-06-30T18:33:45Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - Variational Factorization Machines for Preference Elicitation in
Large-Scale Recommender Systems [17.050774091903552]
本稿では, 標準のミニバッチ降下勾配を用いて容易に最適化できる因子化機械 (FM) の変分定式化を提案する。
提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。
いくつかのデータセットを用いて、予測精度の点で既存の手法と同等または優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T00:06:28Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - Energy-efficient Deployment of Deep Learning Applications on Cortex-M
based Microcontrollers using Deep Compression [1.4050836886292872]
本稿では,資源制約されたマイクロコントローラ上でのディープラーニングモデルの効率的な展開について検討する。
本稿では,異なるDNNプルーニング,量子化,展開戦略の体系的な探索手法を提案する。
予測品質が低下する前に、元のパラメータの10%以下まで圧縮できることが示される。
論文 参考訳(メタデータ) (2022-05-20T10:55:42Z) - An Expectation-Maximization Perspective on Federated Learning [75.67515842938299]
フェデレーション学習は、データをデバイス上でプライベートにしながら、複数のクライアントにわたるモデルの分散トレーニングを記述する。
本稿では,サーバがクライアント固有のモデルパラメータに対して事前分布のパラメータを提供する階層的潜在変数モデルとして,サーバが設定したフェデレーション学習プロセスについて考察する。
我々は,単純なガウス先行とよく知られた期待最大化(EM)アルゴリズムのハードバージョンを用いて,そのようなモデルの学習は,フェデレーション学習環境における最も一般的なアルゴリズムであるFedAvgに対応することを示す。
論文 参考訳(メタデータ) (2021-11-19T12:58:59Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。