論文の概要: Palermo: Improving the Performance of Oblivious Memory using Protocol-Hardware Co-Design
- arxiv url: http://arxiv.org/abs/2411.05400v1
- Date: Fri, 08 Nov 2024 08:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:17.742524
- Title: Palermo: Improving the Performance of Oblivious Memory using Protocol-Hardware Co-Design
- Title(参考訳): Palermo:Protocol-Hardware共同設計によるオープンメモリの性能向上
- Authors: Haojie Ye, Yuchen Xia, Yuhan Chen, Kuan-Yu Chen, Yichao Yuan, Shuwen Deng, Baris Kasikci, Trevor Mudge, Nishil Talati,
- Abstract要約: ORAM(Oblivious RAM)はメモリアクセスパターンを隠蔽し、攻撃者が機密情報を発見できないようにしてデータのプライバシを高める。
ORAMの性能は、セキュリティと効率のトレードオフによって制限されることが多い。
本稿では,ORAMの性能向上のためのプロトコルとハードウェアの共同設計であるPalermoについて述べる。
- 参考スコア(独自算出の注目度): 13.353250150074066
- License:
- Abstract: Oblivious RAM (ORAM) hides the memory access patterns, enhancing data privacy by preventing attackers from discovering sensitive information based on the sequence of memory accesses. The performance of ORAM is often limited by its inherent trade-off between security and efficiency, as concealing memory access patterns imposes significant computational and memory overhead. While prior works focus on improving the ORAM performance by prefetching and eliminating ORAM requests, we find that their performance is very sensitive to workload locality behavior and incurs additional management overhead caused by the ORAM stash pressure. This paper presents Palermo: a protocol-hardware co-design to improve ORAM performance. The key observation in Palermo is that classical ORAM protocols enforce restrictive dependencies between memory operations that result in low memory bandwidth utilization. Palermo introduces a new protocol that overlaps large portions of memory operations, within a single and between multiple ORAM requests, without breaking correctness and security guarantees. Subsequently, we propose an ORAM controller architecture that executes the proposed protocol to service ORAM requests. The hardware is responsible for concurrently issuing memory requests as well as imposing the necessary dependencies to ensure a consistent view of the ORAM tree across requests. Using a rich workload mix, we demonstrate that Palermo outperforms the RingORAM baseline by 2.8x, on average, incurring a negligible area overhead of 5.78mm^2 (less than 2% in 12th generation Intel CPU after technology scaling) and 2.14W without sacrificing security. We further show that Palermo also outperforms the state-of-the-art works PageORAM, PrORAM, and IR-ORAM.
- Abstract(参考訳): ORAM(Oblivious RAM)はメモリアクセスパターンを隠蔽し、攻撃者がメモリアクセスのシーケンスに基づいて機密情報を発見するのを防ぐことにより、データのプライバシを高める。
ORAMの性能は、セキュリティと効率のトレードオフによって制限されることが多い。
従来の作業では,ORAM要求のプリフェッチと削除によるORAM性能向上に重点を置いていたが,作業負荷の局所性に非常に敏感であり,ORAMスタッシュプレッシャによる追加管理オーバーヘッドが生じることが判明した。
本稿では,ORAMの性能向上のためのプロトコルハードウェアの共同設計であるPalermoについて述べる。
パレルモにおける重要な観測は、古典的なORAMプロトコルがメモリ操作間の制限的依存関係を強制し、メモリ帯域幅の消費が低くなることである。
Palermoは、単一のORAMリクエストと複数のORAMリクエストの間に、メモリ操作の大部分を重複させる新しいプロトコルを導入した。
次に,ORAM要求を処理するためのプロトコルを実行するORAMコントローラアーキテクチャを提案する。
ハードウェアは、メモリ要求を同時に発行すると同時に、リクエスト間のORAMツリーの一貫性を保証するために必要な依存関係を付与する責任がある。
リッチなワークロードミックスを用いて、PalermoはRingORAMベースラインを平均2.8倍上回り、セキュリティを犠牲にすることなく5.78mm^2(技術スケーリング後の第12世代のIntel CPUの2%未満)と2.14Wという無視可能な領域オーバーヘッドを発生させることを示した。
さらに,PalermoはPageORAM,PrORAM,IR-ORAMといった最先端技術よりも優れていることを示す。
関連論文リスト
- Optimal Offline ORAM with Perfect Security via Simple Oblivious Priority Queues [0.0]
我々は,メモリアクセスのシーケンスを事前に把握している,いわゆるオフラインORAMについて検討する。
我々は、時間フォワード処理により、不要な優先度待ち行列から完全なセキュリティを備えた、最初の最適オフラインORAMを得る。
我々の構築に基づいて、我々はまた、不明瞭で完全にセキュアな構成の効率的な外部メモリインスタンス化を提示する。
論文 参考訳(メタデータ) (2024-09-18T14:31:33Z) - H$_2$O$_2$RAM: A High-Performance Hierarchical Doubly Oblivious RAM [14.803814604985957]
ORAM (Oblivious RAM) とTrusted Execution Environments (TEE) は、その相補的な性質から多くの現実世界のアプリケーションを発見した。
我々は、高性能階層型O$RAM(H$O$RAM)を構築するために、新しい効率の悪いコンポーネントをいくつか導入する。
その結果、H$O$RAMは実行時間を最大103$倍に削減し、ステート・オブ・テクト・ソリューションと比較してメモリ使用量を5sim44$倍に削減した。
論文 参考訳(メタデータ) (2024-09-11T10:31:14Z) - Understanding the Security Benefits and Overheads of Emerging Industry Solutions to DRAM Read Disturbance [6.637143975465625]
JEDEC DDR5仕様の2024年4月のアップデートで記述されているPRAC(Per Row Activation Counting)緩和法。
バックオフ信号はDRAMチップからメモリコントローラに伝搬する。
RFMコマンドは定期的に発行され、RAMのオーバーヘッドは減少する。
論文 参考訳(メタデータ) (2024-06-27T11:22:46Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Efficient and Error-Resilient Data Access Protocols for a Limited-Sized
Quantum Random Access Memory [7.304498344470287]
我々は、QRAMのサイズを増大させることなく、より大きなデータサイズへのアクセスに注力する。
そこで本研究では,QRAMレベルを$n$にすることなく,単語長がより大きいデータを読み込む新しいプロトコルを提案する。
データクエリプロセスの並列性を活用することで,O(n+k)$の時間複雑性を実現し,エラースケーリング性能を向上させる。
論文 参考訳(メタデータ) (2023-03-09T12:21:18Z) - Single Round-trip Hierarchical ORAM via Succinct Indices [5.437298646956505]
ランクORAMは1回の通信でデータを取得することができる。
emphcompressedクライアント側データ構造は、暗黙的に、各要素の位置をサーバに格納する。
論文 参考訳(メタデータ) (2022-08-16T01:15:26Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。