論文の概要: GPU-based Private Information Retrieval for On-Device Machine Learning
Inference
- arxiv url: http://arxiv.org/abs/2301.10904v1
- Date: Thu, 26 Jan 2023 02:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:40:15.203975
- Title: GPU-based Private Information Retrieval for On-Device Machine Learning
Inference
- Title(参考訳): gpuを用いたオンデバイス機械学習推論のためのプライベート情報検索
- Authors: Maximilian Lam, Jeff Johnson, Wenjie Xiong, Kiwan Maeng, Udit Gupta,
Minsoo Rhu, Hsien-Hsin S. Lee, Vijay Janapa Reddi, Gu-Yeon Wei, David Brooks,
Edward Suh
- Abstract要約: オンデバイス機械学習(ML)推論は、リモートサーバなしでユーザデバイス上でプライベートなユーザデータを使用できる。
本稿では,サーバからの埋め込みを効率よく,かつプライベートに検索するためのプライベート情報検索(PIR)を提案する。
単一のV100 GPU上のシステムでは、毎秒最大10万ドルのクエリを処理できます。
- 参考スコア(独自算出の注目度): 15.057934446442971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device machine learning (ML) inference can enable the use of private user
data on user devices without remote servers. However, a pure on-device solution
to private ML inference is impractical for many applications that rely on
embedding tables that are too large to be stored on-device. To overcome this
barrier, we propose the use of private information retrieval (PIR) to
efficiently and privately retrieve embeddings from servers without sharing any
private information during on-device ML inference. As off-the-shelf PIR
algorithms are usually too computationally intensive to directly use for
latency-sensitive inference tasks, we 1) develop a novel algorithm for
accelerating PIR on GPUs, and 2) co-design PIR with the downstream ML
application to obtain further speedup. Our GPU acceleration strategy improves
system throughput by more than $20 \times$ over an optimized CPU PIR
implementation, and our co-design techniques obtain over $5 \times$ additional
throughput improvement at fixed model quality. Together, on various on-device
ML applications such as recommendation and language modeling, our system on a
single V100 GPU can serve up to $100,000$ queries per second -- a $>100 \times$
throughput improvement over a naively implemented system -- while maintaining
model accuracy, and limiting inference communication and response latency to
within $300$KB and $<100$ms respectively.
- Abstract(参考訳): オンデバイス機械学習(ML)推論は、リモートサーバなしでユーザデバイス上でプライベートなユーザデータを使用できる。
しかし、プライベートML推論に対する純粋なオンデバイスソリューションは、デバイス上に格納するには大きすぎる埋め込みテーブルに依存する多くのアプリケーションにとって実用的ではない。
この障壁を克服するために,デバイス上でのml推論中にプライベート情報を共有することなく,サーバからの埋め込みを効率的かつプライベートに検索するpir(private information retrieval)の利用を提案する。
オフザシェルフのPIRアルゴリズムは、通常計算量が多く、遅延に敏感な推論タスクに直接使用することができないので、我々はそうする。
1)GPU上でPIRを加速する新しいアルゴリズムを開発し、
2) 下流MLアプリケーションとPIRを併用してさらなる高速化を実現する。
我々のGPUアクセラレーション戦略は、最適化されたCPU PIR実装よりも20ドル以上のシステムスループットを向上し、我々の共同設計技術は、固定モデル品質で5ドル以上のスループット改善を得る。
レコメンデーションや言語モデリングといったさまざまなオンデバイスmlアプリケーションでは、単一のv100 gpu上のシステムは、モデル精度を維持しつつ、推論通信と応答レイテンシをそれぞれ300$kbと100$ms以内に制限しながら、1秒間に最大10万ドル(100ドル)のクエリーを処理できます。
関連論文リスト
- Pushing the Performance Envelope of DNN-based Recommendation Systems Inference on GPUs [13.720423381263409]
我々は、埋め込みステージがGPU推論パイプラインの主要なボトルネックであり続けており、3.2倍の埋め込みのみのパフォーマンス低下につながっていることを示す。
本稿では,プラグ・アンド・プレイ方式のソフトウェアプリフェッチとL2ピンニング技術を提案し,遅延の隠蔽と低減に役立てる。
提案手法により, 埋込ステージでは最大103%, DLRM推論パイプラインでは最大77%の性能向上が図られた。
論文 参考訳(メタデータ) (2024-10-29T17:13:54Z) - Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。
私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。
最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文 参考訳(メタデータ) (2024-04-19T07:20:33Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - DreamShard: Generalizable Embedding Table Placement for Recommender
Systems [62.444159500899566]
テーブル配置を埋め込むための強化学習(RL)手法を提案する。
DreamShardは、操作の融合と一般化可能性の推論を達成する。
実験の結果、DreamShardは既存の人間専門家やRNNベースの戦略を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-05T05:12:02Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。