論文の概要: BOLT: Bandwidth-Optimized Lightning-Fast Oblivious Map powered by Secure HBM Accelerators
- arxiv url: http://arxiv.org/abs/2509.01742v2
- Date: Tue, 09 Sep 2025 00:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.790581
- Title: BOLT: Bandwidth-Optimized Lightning-Fast Oblivious Map powered by Secure HBM Accelerators
- Title(参考訳): BOLT:セキュアHBM加速器を用いた帯域最適化雷極オーブリビアスマップ
- Authors: Yitong Guo, Hongbo Chen, Haobin Hiroki Chen, Yukui Luo, XiaoFeng Wang, Chenghong Wang,
- Abstract要約: クラウド実行環境は、パターンリークへのアクセスに対して脆弱である。
Oblivious Mapsは、アクセスパターンを隠すことによってこれを緩和するが、高いオーバーヘッドに悩まされる。
本稿では,光速OMAP加速器BOLTについて述べる。
- 参考スコア(独自算出の注目度): 13.90111222973057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Trusted Execution Environments provide a strong foundation for secure cloud computing, they remain vulnerable to access pattern leakages. Oblivious Maps (OMAPs) mitigate this by fully hiding access patterns but suffer from high overhead due to randomized remapping and worst-case padding. We argue these costs are not fundamental. Modern accelerators featuring High-Bandwidth Memory (HBM) offer a new opportunity: Vaswani et al. [OSDI'18] point out that eavesdropping on HBM is difficult -- even for physical attackers -- as its memory channels are sealed together with processor cores inside the same physical package. Later, Hunt et al. [NSDI'20] show that, with proper isolation, HBM can be turned into an unobservable region where both data and memory traces are hidden. This motivates a rethink of OMAP design with HBM-backed solutions to finally overcome their traditional performance limits. Building on these insights, we present BOLT, a Bandwidth Optimized, Lightning-fast OMAP accelerator that, for the first time, achieves O(1) + O(log_2(log_2 (N))) bandwidth overhead. BOLT introduces three key innovations: (i) a new OMAP algorithm that leverages isolated HBM as an unobservable cache to accelerate oblivious access to large host memory; (ii) a self-hosted architecture that offloads execution and memory control from the host to mitigate CPU-side leakage; and (iii) tailored algorithm-architecture co-designs that maximize resource efficiency. We implement a prototype BOLT on a Xilinx U55C FPGA. Evaluations show that BOLT achieves up to 279x and 480x speedups in initialization and query time, respectively, over state-of-the-art OMAPs, including an industry implementation from Facebook.
- Abstract(参考訳): Trusted Execution Environmentsは、セキュアなクラウドコンピューティングの強力な基盤を提供するが、パターンリークへのアクセスには弱いままである。
Oblivious Maps(OMAP)は、アクセスパターンを完全に隠すことでこれを緩和するが、ランダムなリマッピングと最悪のパディングによって高いオーバーヘッドに悩まされる。
これらのコストは基本的なものではないと私たちは主張する。
Vaswani氏ら[OSDI'18]は、同じ物理パッケージ内のプロセッサコアと一緒にメモリチャネルが封印されているため、物理攻撃者であっても、HBMの盗聴は困難である、と指摘している。
その後、Hunt et al [NSDI'20] は、適切な分離により、HBMは、データとメモリトレースの両方が隠された観測不能な領域に変換することができることを示した。
これは、HBMが支援するソリューションでOMAP設計を再考し、最終的に従来の性能限界を克服する動機となっている。
これらの知見に基づいて,O(1)+O(log_2(log_2(N))の帯域オーバヘッドを初めて達成した帯域最適化,ライトニング高速化OMAPアクセラレータBOLTを提案する。
BOLTは3つの重要なイノベーションを紹介します。
i) 孤立したHBMを観測不能なキャッシュとして利用し、大きなホストメモリへの不可避アクセスを高速化する新しいOMAPアルゴリズム
(ii)CPU側のリークを軽減するためにホストから実行とメモリ制御をオフロードする自己ホスト型アーキテクチャ。
(iii)資源効率を最大化するアルゴリズムアーキテクチャの共同設計。
我々は Xilinx U55C FPGA 上で BOLT のプロトタイプを実装した。
BOLTは、Facebookの業界実装を含む最先端のOMAPよりも、初期化とクエリ時間で最大279倍、最大480倍のスピードアップを実現している。
関連論文リスト
- BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - FlashForge: Ultra-Efficient Prefix-Aware Attention for LLM Decoding [44.47821531299985]
複数のプロンプト間のプレフィックス共有は、共有プレフィックスの操作を組み合わせる機会を提供する。
デコーディングは、プレフィックスのキー値(KV)キャッシュに大量のメモリアクセスを必要とするメモリ集約プロセスである。
我々は,共有KVキャッシュのメモリアクセスをデコードステージ,すなわちFlashForgeで組み合わせるための専用アテンションカーネルを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:03:28Z) - Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching [12.993197799897532]
大規模言語モデル(LLM)は、高帯域メモリ(HBM)帯域幅の制約により、推論中に顕著なメモリバウンド特性を示す。
本稿では,L2キャッシュ指向の非同期KVキャッシュプリフェッチ手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T09:17:35Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - Revisiting Main Memory-Based Covert and Side Channel Attacks in the Context of Processing-in-Memory [6.709670986126109]
IMPACTは、プロセッサ・イン・メモリ(PiM)アーキテクチャの特徴を利用する主要なメモリベースのタイミング攻撃のセットである。
異なるPiMアプローチを利用する2つの隠蔽チャネルを構築します。
我々の秘密チャネルは、それぞれ8.2 Mb/sと14.8 Mb/sの通信スループットを達成しており、これは最先端のメインメモリベースの秘密チャネルよりも3.6倍と6.5倍高い。
論文 参考訳(メタデータ) (2024-04-17T11:48:14Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - Hashing-based Non-Maximum Suppression for Crowded Object Detection [63.761451382081844]
オブジェクト検出のための非最大ボックスを効率的に抑制するアルゴリズム,HNMS(Hash-based non-maximumpression)を提案する。
2段階検出器では、領域提案ネットワークにおけるNMSをHNMSに置き換え、相当の精度でかなりのスピードアップを観測する。
CARPK、SKU-110K、CrowdHumanデータセットを用いて実験を行い、HNMSの有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-05-22T23:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。