Fugu-MT 論文翻訳(概要): GPIR: Enabling Practical Private Information Retrieval with GPUs

論文の概要: GPIR: Enabling Practical Private Information Retrieval with GPUs

arxiv url: http://arxiv.org/abs/2604.04696v1
Date: Mon, 06 Apr 2026 14:04:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.216766
Title: GPIR: Enabling Practical Private Information Retrieval with GPUs
Title（参考訳）: GPIR:GPUで実用的なプライベート情報検索を実現する
Authors: Hyesung Ji, Hyunah Yu, Jongmin Kim, Wonseok Choi, G. Edward Suh, Jung Ho Ahn,
Abstract要約: GPIRは、カーネル、データレイアウト、実行スケジュールを再考するGPUアクセラレーションPIRシステムである。本稿では、各プリミティブな操作を別々に実行する運用レベルカーネルと、プロトコルステージ内のすべての操作を単一のカーネルに融合させてオンチップデータの再利用を最大化する運用レベルカーネルを切り替える、段階対応ハイブリッド実行モデルを提案する。
参考スコア（独自算出の注目度）: 10.979759633611133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Private information retrieval (PIR) allows private database queries but is hindered by intense server-side computation and memory traffic. Modern lattice-based PIR protocols typically involve three phases: ExpandQuery (expanding a query into encrypted indices), RowSel (encrypted row selection), and ColTor (recursive "column tournament" for final selection). ExpandQuery and ColTor primarily perform number-theoretic transforms (NTTs), whereas RowSel reduces to large-scale independent matrix-matrix multiplications (GEMMs). GPUs are theoretically ideal for these tasks, provided multi-client batching is used to achieve high throughput. However, batching fundamentally reshapes performance bottlenecks; while it amortizes database access costs, it expands working sets beyond the L2 cache capacity, causing divergent memory behaviors and excessive DRAM traffic. We present GPIR, a GPU-accelerated PIR system that rethinks kernel design, data layout, and execution scheduling. We introduce a stage-aware hybrid execution model that dynamically switches between operation-level kernels, which execute each primitive operation separately, and stage-level kernels, which fuse all operations within a protocol stage into a single kernel to maximize on-chip data reuse. For RowSel, we identify a performance gap caused by a structural mismatch between NTT-driven data layouts and tiled GEMM access patterns, which is exacerbated by multi-client batching. We resolve this through a transposed-layout GEMM design and fine-grained pipelining. Finally, we extend GPIR to multi-GPU systems, scaling both query throughput and database capacity with negligible communication overhead. GPIR achieves up to 305.7x higher throughput than PIRonGPU, the state-of-the-art GPU implementation.
Abstract（参考訳）: プライベート情報検索(PIR)は、プライベートデータベースクエリを許容するが、サーバーサイドの計算とメモリトラフィックによって妨げられる。現代の格子ベースのPIRプロトコルは通常、ExpandQuery(暗号化されたインデックスへのクエリ拡張)、RowSel(暗号化された行選択)、ColTor(最終選択のための再帰的な"カラムトーナメント")の3つのフェーズを含む。 ExpandQueryとColTorは主に数値理論変換(NTT)を実行するが、RowSelは大規模で独立した行列行列行列乗法(GEMM)に還元する。 GPUは理論的にはこれらのタスクに理想的であり、高いスループットを達成するためにマルチクライアントバッチが使用される。しかし、バッチ処理は、データベースアクセスコストを損なう一方で、L2キャッシュキャパシティを超えて作業セットを拡張し、分散メモリの挙動と過剰なDRAMトラフィックを引き起こす。本稿では、カーネル設計、データレイアウト、実行スケジューリングを再考するGPUアクセラレーションPIRシステムGPIRを提案する。本稿では,各プリミティブな操作を別々に実行する運用レベルカーネルと,プロトコルステージ内のすべての操作を単一カーネルに融合させてオンチップデータの再利用を最大化する運用レベルカーネルとを動的に切り替える段階対応ハイブリッド実行モデルを提案する。 RowSel では,NTT によるデータレイアウトと階層型GEMM アクセスパターン間の構造的ミスマッチによる性能ギャップを同定する。 GEMM設計と細粒度パイプライニングによりこれを解決する。最後に、GPIRをマルチGPUシステムに拡張し、クエリスループットとデータベース容量を無視可能な通信オーバーヘッドでスケーリングする。 GPIRは最先端のGPU実装であるPIRonGPUよりも最大305.7倍のスループットを実現している。

関連論文リスト

GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。 GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文参考訳（メタデータ） (2025-11-28T07:26:45Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
CAT: A GPU-Accelerated FHE Framework with Its Application to High-Precision Private Dataset Query [0.51795041186793]
本稿では,オープンソースGPUアクセラレーションによる完全同型暗号(FHE)フレームワークCATを紹介する。 emphCATは、コア数学の基礎、事前計算された要素と複合操作のブリッジ、FHE演算子のAPIアクセス可能なレイヤという3層アーキテクチャを備えている。本フレームワークでは,CKKS,BFV,BGVの3種類のFHEスキームを実装した。
論文参考訳（メタデータ） (2025-03-28T08:20:18Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。 MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。 MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。