論文の概要: BOLT: Bandwidth-Optimized Lightning-Fast Oblivious Map powered by Secure HBM Accelerators
- arxiv url: http://arxiv.org/abs/2509.01742v1
- Date: Mon, 01 Sep 2025 19:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.833136
- Title: BOLT: Bandwidth-Optimized Lightning-Fast Oblivious Map powered by Secure HBM Accelerators
- Title(参考訳): BOLT:セキュアHBM加速器を用いた帯域最適化雷極オーブリビアスマップ
- Authors: Yitong Guo, Hongbo Chen, Haobin Hiroki Chen, Yukui Luo, XiaoFeng Wang, Chenghong Wang,
- Abstract要約: Trusted Execution Environmentsは、セキュアなクラウドコンピューティングの強力な基盤を提供する。
アクセスパターンの漏洩に対して脆弱なままである。
Oblivious Maps (OMAP) は、アクセスパターンを完全に隠蔽することでこれを緩和するが、高いオーバーヘッドに悩まされる。
我々は,O(1)+O((log log N)2)帯域オーバヘッドを初めて達成したLightning-fast OMAPアクセラレータBOLTを提案する。
- 参考スコア(独自算出の注目度): 13.90111222973057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Trusted Execution Environments provide a strong foundation for secure cloud computing, they remain vulnerable to access pattern leakages. Oblivious Maps (OMAPs) mitigate this by fully hiding access patterns but suffer from high overhead due to randomized remapping and worst-case padding. We argue these costs are not fundamental. Modern accelerators featuring High-Bandwidth Memory (HBM) offer a new opportunity: Vaswani et al. [OSDI'18] point out that eavesdropping on HBM is difficult -- even for physical attackers -- as its memory channels are sealed together with processor cores inside the same physical package. Later, Hunt et al. [NSDI'20] show that, with proper isolation, HBM can be turned into an unobservable region where both data and memory traces are hidden. This motivates a rethink of OMAP design with HBM-backed solutions to finally overcome their traditional performance limits. Building on these insights, we present BOLT, a Bandwidth Optimized, Lightning-fast OMAP accelerator that, for the first time, achieves O(1) + O((log log N)^2) bandwidth overhead. BOLT introduces three key innovations: (i) a new OMAP algorithm that leverages isolated HBM as an unobservable cache to accelerate oblivious access to large host memory; (ii) a self-hosted architecture that offloads execution and memory control from the host to mitigate CPU-side leakage; and (iii) tailored algorithm-architecture co-designs that maximize resource efficiency. We implement a prototype BOLT on a Xilinx U55C FPGA. Evaluations show that BOLT achieves up to 279x and 480x speedups in initialization and query time, respectively, over state-of-the-art OMAPs, including an industry implementation from Facebook.
- Abstract(参考訳): Trusted Execution Environmentsは、セキュアなクラウドコンピューティングの強力な基盤を提供するが、パターンリークへのアクセスには弱いままである。
Oblivious Maps(OMAP)は、アクセスパターンを完全に隠すことでこれを緩和するが、ランダムなリマッピングと最悪のパディングによって高いオーバーヘッドに悩まされる。
これらのコストは基本的なものではないと私たちは主張する。
Vaswani氏ら[OSDI'18]は、同じ物理パッケージ内のプロセッサコアと一緒にメモリチャネルが封印されているため、物理攻撃者であっても、HBMの盗聴は困難である、と指摘している。
その後、Hunt et al [NSDI'20] は、適切な分離により、HBMは、データとメモリトレースの両方が隠された観測不能な領域に変換することができることを示した。
これは、HBMが支援するソリューションでOMAP設計を再考し、最終的に従来の性能限界を克服する動機となっている。
これらの知見に基づいて,O(1)+O((log log N)^2)帯域オーバヘッドを初めて達成した帯域最適化,ライトニング高速化OMAPアクセラレータBOLTを提案する。
BOLTは3つの重要なイノベーションを紹介します。
i) 孤立したHBMを観測不能なキャッシュとして利用し、大きなホストメモリへの不可避アクセスを高速化する新しいOMAPアルゴリズム
(ii)CPU側のリークを軽減するためにホストから実行とメモリ制御をオフロードする自己ホスト型アーキテクチャ。
(iii)資源効率を最大化するアルゴリズムアーキテクチャの共同設計。
我々は Xilinx U55C FPGA 上で BOLT のプロトタイプを実装した。
BOLTは、Facebookの業界実装を含む最先端のOMAPよりも、初期化とクエリ時間で最大279倍、最大480倍のスピードアップを実現している。
関連論文リスト
- MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs [9.086910335841772]
メモリウォール」のボトルネックは、現代の大規模Mixture-of-Experts (MoE)アーキテクチャで顕著に増幅されている。
私たちは、メモリ効率のよいMoEトレーニングフレームワークであるMoEBlazeを紹介します。
既存のMoEフレームワークと比較して、MoEBlazeは4倍以上のスピードアップと50%以上のメモリ節約を実現できます。
論文 参考訳(メタデータ) (2026-01-08T08:38:23Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Theodosian: A Deep Dive into Memory-Hierarchy-Centric FHE Acceleration [3.8153115302044296]
完全同型暗号化(FHE)は、暗号化されたデータに対するセキュアな計算を可能にし、クラウドおよびエッジ環境におけるプライバシー上の懸念を軽減する。
本稿では,最新のGPU上で一般的なFHE方式であるCKKSのマイクロアーキテクチャ解析を行う。
高帯域幅のL2キャッシュであっても、支配的なカーネルはメモリ帯域幅で束縛され、永続的なメモリ壁が露出することを示す。
これらの知見に触発されて,キャッシュ効率の向上とオーバーヘッド削減を目的とした,相補的でメモリ対応の最適化セットであるTheodosianを紹介した。
論文 参考訳(メタデータ) (2025-12-20T12:18:29Z) - Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文 参考訳(メタデータ) (2025-07-13T12:33:37Z) - BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - FlashForge: Ultra-Efficient Prefix-Aware Attention for LLM Decoding [44.47821531299985]
複数のプロンプト間のプレフィックス共有は、共有プレフィックスの操作を組み合わせる機会を提供する。
デコーディングは、プレフィックスのキー値(KV)キャッシュに大量のメモリアクセスを必要とするメモリ集約プロセスである。
我々は,共有KVキャッシュのメモリアクセスをデコードステージ,すなわちFlashForgeで組み合わせるための専用アテンションカーネルを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:03:28Z) - Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching [12.993197799897532]
大規模言語モデル(LLM)は、高帯域メモリ(HBM)帯域幅の制約により、推論中に顕著なメモリバウンド特性を示す。
本稿では,L2キャッシュ指向の非同期KVキャッシュプリフェッチ手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T09:17:35Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - Revisiting Main Memory-Based Covert and Side Channel Attacks in the Context of Processing-in-Memory [6.709670986126109]
IMPACTは、プロセッサ・イン・メモリ(PiM)アーキテクチャの特徴を利用する主要なメモリベースのタイミング攻撃のセットである。
異なるPiMアプローチを利用する2つの隠蔽チャネルを構築します。
我々の秘密チャネルは、それぞれ8.2 Mb/sと14.8 Mb/sの通信スループットを達成しており、これは最先端のメインメモリベースの秘密チャネルよりも3.6倍と6.5倍高い。
論文 参考訳(メタデータ) (2024-04-17T11:48:14Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - Hashing-based Non-Maximum Suppression for Crowded Object Detection [63.761451382081844]
オブジェクト検出のための非最大ボックスを効率的に抑制するアルゴリズム,HNMS(Hash-based non-maximumpression)を提案する。
2段階検出器では、領域提案ネットワークにおけるNMSをHNMSに置き換え、相当の精度でかなりのスピードアップを観測する。
CARPK、SKU-110K、CrowdHumanデータセットを用いて実験を行い、HNMSの有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-05-22T23:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。