論文の概要: KeyMemRT Compiler and Runtime: Unlocking Memory-Scalable FHE
- arxiv url: http://arxiv.org/abs/2601.18445v1
- Date: Mon, 26 Jan 2026 12:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.823926
- Title: KeyMemRT Compiler and Runtime: Unlocking Memory-Scalable FHE
- Title(参考訳): KeyMemRTコンパイラとランタイム:メモリ拡張性のあるFHEのアンロック
- Authors: Eymen Ünay, Björn Franke, Jackson Woodruff,
- Abstract要約: ホモモルフィック暗号化(FHE)は、プライバシ保護計算を可能にするが、高いレイテンシとメモリ消費に悩まされる。
既存のコンパイラはこの問題を解決するためにほとんど努力せず、代わりに大量のメモリを持つシステムに依存している。
MLIRベースのコンパイラとランタイムフレームワークであるKeyMemRTを紹介し、ローテーションキーの寿命を個別に管理し、メモリ使用率を下げる。
- 参考スコア(独自算出の注目度): 0.734084539365505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fully Homomorphic Encryption (FHE) enables privacy preserving computation but it suffers from high latency and memory consumption. The computations are secured with special keys called rotation keys which often take up the majority of memory. In complex FHE applications, these rotation keys can cause a large memory bottleneck limiting program throughput. Existing compilers make little effort to solve this problem, instead relying on systems with massive memory availability. This resource requirement is a barrier to FHE uptake because optimizing FHE programs by hand is challenging due to their scale, complexity and expertise required. In this work, we present KeyMemRT; an MLIR based compiler and runtime framework that individually manages rotation key lifetimes to lower memory utilization and to allow arbitrary number of rotation indices to be supported without memory bloating. KeyMemRT relies on dataflow analysis to determine key lifetimes and is the first FHE compiler to provide automatic key management, handle fine-grained key-mangement and manage boostrap keys. We implement frontends for Orion and HEIR and show improvements over state-of-the-art FHE compilers. KeyMemRT achieves memory reduction of 1.74x and a speedup of 1.20x over ANT-ACE, and memory reduction of 1.16x and a speedup of 1.73x over memory-optimized compiler Fhelipe. We provide KeyMemRT as a post-optimizing compiler that can be targeted by any FHE compiler.
- Abstract(参考訳): FHE(Fully Homomorphic Encryption)は、プライバシ保護の計算を可能にするが、高いレイテンシとメモリ消費に悩まされる。
計算はローテーションキーと呼ばれる特別なキーで保護され、ほとんどのメモリを占有する。
複雑なFHEアプリケーションでは、これらのローテーションキーはプログラムのスループットを制限する大きなメモリボトルネックを引き起こす可能性がある。
既存のコンパイラはこの問題を解決するためにほとんど努力せず、代わりに大量のメモリを持つシステムに依存している。
このリソース要件は、FHEプログラムを手作業で最適化することは、その規模、複雑さ、専門性のために難しいため、FHEの獲得の障壁となる。
本稿では,MLIRベースのコンパイラとランタイムフレームワークであるKeyMemRTを紹介し,メモリ使用量を減らすためにローテーションキーの寿命を個別に管理し,メモリの肥大化を伴わずに任意の数のローテーションインデックスをサポートできるようにする。
KeyMemRTはキーライフタイムを決定するためにデータフロー分析に依存しており、自動キー管理、きめ細かいキー管理、ブーストラップキーの管理を行う最初のFHEコンパイラである。
我々はOrionとHEIRのフロントエンドを実装し、最先端のFHEコンパイラの改善を示す。
KeyMemRT は ANT-ACE 上で 1.74x のメモリ削減と 1.20x のスピードアップを実現し、メモリ最適化コンパイラ Fhelipe 上で 1.16x のメモリ削減と 1.73x のスピードアップを実現している。
最適化後のコンパイラとしてKeyMemRTを提供し、任意のFHEコンパイラがターゲットとすることができます。
関連論文リスト
- Trellis: Learning to Compress Key-Value Memory in Attention Models [48.12167339402521]
本稿では,有界メモリを備えた新しいトランスフォーマーアーキテクチャであるTrellisを紹介する。
Trellisは標準のKVキャッシュを固定サイズのメモリに置き換え、新しいキーと値をメモリに格納する2パスのリカレント圧縮機構を訓練する。
言語モデリング、常識推論、リコール集約タスク、時系列に関する実験は、提案されたアーキテクチャが強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-29T20:32:10Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - GME: GPU-based Microarchitectural Extensions to Accelerate Homomorphic Encryption [33.87964584665433]
ホモモルフィック暗号化(FHE)は、暗号化データを復号することなく処理することができる。
FHEは、平文データを使った同じ計算と比較して最大5桁のスローダウンを導入している。
本稿では,3つのキーとなるマイクロアーキテクチャ拡張と,現在のAMD CDNA GPUアーキテクチャへのコンパイル時間最適化を組み合わせたGMEを提案する。
論文 参考訳(メタデータ) (2023-09-20T01:50:43Z) - Memory Safe Computations with XLA Compiler [14.510796427699459]
XLAコンパイラ拡張は、ユーザーが指定したメモリ制限に従ってアルゴリズムの表現を調整する。
我々は,k-アネレスト近傍およびスパースガウス過程回帰法が単一デバイス上ではるかに大きなスケールで実行可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T16:59:28Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Programmable FPGA-based Memory Controller [9.013666207570749]
本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。
提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
論文 参考訳(メタデータ) (2021-08-21T23:53:12Z) - Towards Faster Reasoners By Using Transparent Huge Pages [0.491574468325115]
本研究では,ARツールのランタイムを平均で10%,長期実行タスクで最大20%削減するアプローチを提案する。
我々の改善は、ARツールで使用されるデータ構造に付随する高メモリ使用量に対処しています。
論文 参考訳(メタデータ) (2020-04-29T17:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。