論文の概要: Lightweight, Practical Encrypted Face Recognition with GPU Support
- arxiv url: http://arxiv.org/abs/2604.00546v1
- Date: Wed, 01 Apr 2026 06:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.87603
- Title: Lightweight, Practical Encrypted Face Recognition with GPU Support
- Title(参考訳): GPUをサポートした軽量で実用的な顔認識
- Authors: Gabrielle De Micheli, Syed Mahbub Hafiz, Geovandro Pereira, Eduardo L. Cominetti, Thales B. Paiva, Jina Choi, Marcos A. Simplicio, Bahattin Yildiz,
- Abstract要約: 顔認識モデルは、クライアントがコンパクトな顔埋め込みを抽出し、サーバがテンプレートデータベース上で類似検索を行うクライアントサーバ設定で動作する。
既存のFHEベースのプロトコルは計算コストが高く、メモリオーバーヘッドが高い。
本稿では,高速かつメモリ効率の良い類似性計算を実現するアルゴリズムであるBSGS-Diagonalを紹介する。
- 参考スコア(独自算出の注目度): 0.5598105282648399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face recognition models operate in a client-server setting where a client extracts a compact face embedding and a server performs similarity search over a template database. This raises privacy concerns, as facial data is highly sensitive. To provide cryptographic privacy guarantees, one can use fully homomorphic encryption to perform end-to-end encrypted similarity search. However, existing FHE-based protocols are computationally costly and, impose high memory overhead. Building on prior work, HyDia, we introduce algorithmic and system-level improvements targeting real-world deployment with resource-constrained clients. First, we propose BSGS-Diagonal, an algorithm delivering fast and memory-efficient similarity computation. BSGS-Diagonal substantially shrinks the rotation-key set, lowering both client and server memory requirements, and also improves practical server runtime. This yields a 91% reduction in the number of rotation keys, translating to approximately 14 GB less memory used on the client, and reducing overall CPU peak RAM from over 30 GB in the original HyDia to under 10 GB for databases up to size 1M. In addition, runtime is improved by up to 1.57x for the membership verification scenario and 1.43x for the identification scenario. Secondly, we introduce fully GPU-optimized similarity matrix computation kernels. The implementation is built upon FIDESlib, a CKKS-level GPU library based on OpenFHE. Rather than offloading individual CKKS primitives in isolation, the integrated kernels fuse operations to avoid repeated CPU-GPU ciphertext movement and costly FIDESlib/OpenFHE data-structure conversions. As a result, our GPU implementations of both HyDia and BSGS-Diagonal achieve up to 9x and 17x speedups, respectively, enabling sub-second encrypted face recognition for databases up to 32K entries while further reducing host memory usage.
- Abstract(参考訳): 顔認識モデルは、クライアントがコンパクトな顔埋め込みを抽出し、サーバがテンプレートデータベース上で類似検索を行うクライアントサーバ設定で動作する。
これにより、顔データが非常に敏感であるため、プライバシー上の懸念が高まる。
完全同型暗号を用いてエンドツーエンドの暗号化類似検索を行うことができる暗号化プライバシ保証を提供する。
しかし、既存のFHEベースのプロトコルは計算コストが高く、メモリオーバーヘッドが高い。
我々は,HyDiaという先行研究に基づいて,リソース制約のあるクライアントによる現実のデプロイメントをターゲットとしたアルゴリズムとシステムレベルの改善を導入する。
まず,高速かつメモリ効率の良い類似性計算を行うアルゴリズムであるBSGS-Diagonalを提案する。
BSGS-Diagonalはローテーションキーセットを大幅に縮小し、クライアントとサーバの両方のメモリ要件を減らし、実用的なサーバランタイムを改善している。
これにより、ローテーションキーの数を91%削減し、クライアントで使用されるメモリを約14GB削減し、CPUのピークRAMをオリジナルのHyDiaの30GB以上からデータベースの10GB以下に縮小する。
さらに、メンバシップ検証シナリオでは1.57倍、識別シナリオでは1.43倍まで改善されている。
次に,完全にGPU最適化された類似性行列計算カーネルを提案する。
この実装は、OpenFHEをベースとしたCKKSレベルのGPUライブラリであるFIDESlib上に構築されている。
個々のCKKSプリミティブを個別にオフロードするのではなく、統合されたカーネルは、CPU-GPU暗号の繰り返し移動やコストのかかるFIDESlib/OpenFHEデータ構造変換を避けるために操作を融合する。
その結果,HyDiaとBSGS-DiagonalのGPU実装は,それぞれ最大9倍,最大17倍の高速化を実現した。
関連論文リスト
- Theodosian: A Deep Dive into Memory-Hierarchy-Centric FHE Acceleration [3.8153115302044296]
完全同型暗号化(FHE)は、暗号化されたデータに対するセキュアな計算を可能にし、クラウドおよびエッジ環境におけるプライバシー上の懸念を軽減する。
本稿では,最新のGPU上で一般的なFHE方式であるCKKSのマイクロアーキテクチャ解析を行う。
高帯域幅のL2キャッシュであっても、支配的なカーネルはメモリ帯域幅で束縛され、永続的なメモリ壁が露出することを示す。
これらの知見に触発されて,キャッシュ効率の向上とオーバーヘッド削減を目的とした,相補的でメモリ対応の最適化セットであるTheodosianを紹介した。
論文 参考訳(メタデータ) (2025-12-20T12:18:29Z) - Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。
また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-27T10:11:27Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - CAT: A GPU-Accelerated FHE Framework with Its Application to High-Precision Private Dataset Query [0.51795041186793]
本稿では,オープンソースGPUアクセラレーションによる完全同型暗号(FHE)フレームワークCATを紹介する。
emphCATは、コア数学の基礎、事前計算された要素と複合操作のブリッジ、FHE演算子のAPIアクセス可能なレイヤという3層アーキテクチャを備えている。
本フレームワークでは,CKKS,BFV,BGVの3種類のFHEスキームを実装した。
論文 参考訳(メタデータ) (2025-03-28T08:20:18Z) - CIPHERMATCH: Accelerating Homomorphic Encryption-Based String Matching via Memory-Efficient Data Packing and In-Flash Processing [8.114331115730021]
ホモモルフィック暗号化(HE)は、元のデータを公開せずに暗号化されたデータのセキュアな計算を可能にする。
多くのクラウドコンピューティングアプリケーション(例えば、DNA読み取りマッピング、バイオメトリックマッチング、Web検索)は、正確な文字列マッチングをキー操作として使っている。
ホモモルフィック暗号を用いた従来の文字列マッチングアルゴリズムは、高い計算遅延によって制限される。
論文 参考訳(メタデータ) (2025-03-12T00:25:58Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Cheddar: A Swift Fully Homomorphic Encryption Library Designed for GPU Architectures [2.613335121517245]
完全なホモモルフィック暗号化(FHE)は、暗号化されたデータに対するセキュアな計算を可能にすることによって、クラウドコンピューティングをプライバシの懸念から解放する。
我々は、GPUのための高性能なFHEライブラリであるCheddarを紹介し、従来のGPU実装よりも大幅に高速化した。
論文 参考訳(メタデータ) (2024-07-17T23:49:18Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。