論文の概要: GPU-based Private Information Retrieval for On-Device Machine Learning
Inference
- arxiv url: http://arxiv.org/abs/2301.10904v3
- Date: Mon, 25 Sep 2023 22:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 20:54:34.344195
- Title: GPU-based Private Information Retrieval for On-Device Machine Learning
Inference
- Title(参考訳): gpuを用いたオンデバイス機械学習推論のためのプライベート情報検索
- Authors: Maximilian Lam, Jeff Johnson, Wenjie Xiong, Kiwan Maeng, Udit Gupta,
Yang Li, Liangzhen Lai, Ilias Leontiadis, Minsoo Rhu, Hsien-Hsin S. Lee,
Vijay Janapa Reddi, Gu-Yeon Wei, David Brooks, G. Edward Suh
- Abstract要約: オンデバイス機械学習(ML)推論は、リモートサーバに公開することなく、ユーザデバイス上でプライベートなユーザデータを使用可能にする。
本研究では,プライベート情報を共有することなく,サーバからの埋め込みを効率的に,かつプライベートに検索するためのプライベート情報検索(PIR)を提案する。
当社のシステムは単一のV100 GPU上で,毎秒最大100,000ドルのクエリを処理可能です -- CPUベースのベースラインよりも100倍のスループット向上を実現しています。
- 参考スコア(独自算出の注目度): 22.340827096549297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device machine learning (ML) inference can enable the use of private user
data on user devices without revealing them to remote servers. However, a pure
on-device solution to private ML inference is impractical for many applications
that rely on embedding tables that are too large to be stored on-device. In
particular, recommendation models typically use multiple embedding tables each
on the order of 1-10 GBs of data, making them impractical to store on-device.
To overcome this barrier, we propose the use of private information retrieval
(PIR) to efficiently and privately retrieve embeddings from servers without
sharing any private information. As off-the-shelf PIR algorithms are usually
too computationally intensive to directly use for latency-sensitive inference
tasks, we 1) propose novel GPU-based acceleration of PIR, and 2) co-design PIR
with the downstream ML application to obtain further speedup. Our GPU
acceleration strategy improves system throughput by more than $20 \times$ over
an optimized CPU PIR implementation, and our PIR-ML co-design provides an over
$5 \times$ additional throughput improvement at fixed model quality. Together,
for various on-device ML applications such as recommendation and language
modeling, our system on a single V100 GPU can serve up to $100,000$ queries per
second -- a $>100 \times$ throughput improvement over a CPU-based baseline --
while maintaining model accuracy.
- Abstract(参考訳): オンデバイス機械学習(ML)推論は、リモートサーバに公開することなく、ユーザデバイス上でプライベートなユーザデータを使用できる。
しかし、プライベートML推論に対する純粋なオンデバイスソリューションは、デバイス上に格納するには大きすぎる埋め込みテーブルに依存する多くのアプリケーションにとって実用的ではない。
特にレコメンデーションモデルは、通常、1-10gbのデータの順番で複数の埋め込みテーブルを使用しており、デバイスに格納するのは現実的ではない。
この障壁を克服するために,プライベート情報検索(PIR)を用いて,プライベート情報を共有することなく,サーバからの埋め込みを効率的にかつプライベートに検索する手法を提案する。
オフザシェルフのPIRアルゴリズムは、通常計算量が多く、遅延に敏感な推論タスクに直接使用することができないので、我々はそうする。
1)新しいGPUによるPIR加速の提案,及び
2) 下流MLアプリケーションとPIRを併用してさらなる高速化を実現する。
当社のgpuアクセラレーション戦略は、最適化されたcpu pir実装よりも20 \times$以上システムスループットを改善し、pir-mlは、固定されたモデル品質で5 \times$以上のスループット改善を提供します。
共に、レコメンデーションや言語モデリングなど、さまざまなデバイス上のMLアプリケーションに対して、単一のV100 GPU上のシステムは、毎秒最大100,000ドルのクエリを処理できます -- CPUベースのベースラインよりも100 \times$スループットの改善 -- モデル精度を維持しながら。
関連論文リスト
- Pushing the Performance Envelope of DNN-based Recommendation Systems Inference on GPUs [13.720423381263409]
我々は、埋め込みステージがGPU推論パイプラインの主要なボトルネックであり続けており、3.2倍の埋め込みのみのパフォーマンス低下につながっていることを示す。
本稿では,プラグ・アンド・プレイ方式のソフトウェアプリフェッチとL2ピンニング技術を提案し,遅延の隠蔽と低減に役立てる。
提案手法により, 埋込ステージでは最大103%, DLRM推論パイプラインでは最大77%の性能向上が図られた。
論文 参考訳(メタデータ) (2024-10-29T17:13:54Z) - Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。
私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。
最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文 参考訳(メタデータ) (2024-04-19T07:20:33Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - DreamShard: Generalizable Embedding Table Placement for Recommender
Systems [62.444159500899566]
テーブル配置を埋め込むための強化学習(RL)手法を提案する。
DreamShardは、操作の融合と一般化可能性の推論を達成する。
実験の結果、DreamShardは既存の人間専門家やRNNベースの戦略を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-05T05:12:02Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。