論文の概要: Onyx: Cost-Efficient Disk-Oblivious ANN Search
- arxiv url: http://arxiv.org/abs/2604.20401v1
- Date: Wed, 22 Apr 2026 10:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.079066
- Title: Onyx: Cost-Efficient Disk-Oblivious ANN Search
- Title(参考訳): Onyx: 費用効率の良いディスク公開ANN検索
- Authors: Deevashwer Rathee, Jean-Luc Watson, Zirui Neil Zhao, G. Edward Suh, Raluca Ada Popa,
- Abstract要約: AIシステムにおける近似近接探索(ANN)は、ますますサードパーティのインフラ上の機密データを処理している。
ORAM(Oblivious RAM)はアクセスパターンを隠蔽するが、既存のディスクベースのANN検索技術と組み合わせることで、リソースの活用を損なう。
我々は2つの新しい設計したコンポーネントを持つコスト効率の高いOnyxアプローチを提案する。
- 参考スコア(独自算出の注目度): 19.458204311910496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approximate nearest neighbor (ANN) search in AI systems increasingly handles sensitive data on third-party infrastructure. Trusted execution environments (TEEs) offer protection, but cost-efficient deployments must rely on external SSDs, which leaks user queries through disk access patterns to the host. Oblivious RAM (ORAM) can hide these access patterns but at a high cost; when paired with existing disk-based ANN search techniques, it makes poor use of SSD resources, yielding high latency and poor cost-efficiency. The core challenge for efficient oblivious ANN search over SSDs is balancing both bandwidth and access count. The state-of-the-art ORAM-ANN design minimizes access count at the ANN level and bandwidth at the ORAM level, each trading-off the other, leaving the combined system with both resources overutilized. We propose inverting this design, minimizing bandwidth consumption in the ANN layer and access count in the ORAM layer, since each component is better suited for its new role: ANN's inherent approximation allows for more bandwidth efficiency, while ORAM has no fundamental lower bounds on access count (as opposed to bandwidth). To this end, we propose a cost-efficient approach, Onyx, with two new co-designed components: Onyx-ANNS introduces a compact intermediate representation that proactively prunes the majority of bandwidth-intensive accesses without hurting recall, and Onyx-ORAM proposes a locality-aware shallow tree design that reduces access count while remaining compatible with bandwidth-efficient ORAM techniques. Compared to the state-of-the-art oblivious ANN search system, Onyx achieves $1.7-9.9\times$ lower cost and $2.3-12.3\times$ lower latency.
- Abstract(参考訳): AIシステムにおける近似近接探索(ANN)は、ますますサードパーティのインフラ上の機密データを処理している。
信頼できる実行環境(TEE)は保護を提供するが、コスト効率の高いデプロイメントは外部SSDに依存しなければならない。
既存のディスクベースの ANN 検索技術と組み合わせることで,SSD リソースの使い勝手が悪く,レイテンシが高く,コスト効率も低い。
SSD上での効率的なANN検索の課題は、帯域幅とアクセス数の両方のバランスをとることだ。
最先端のORAM-ANN設計では、ANNレベルのアクセスカウントとORAMレベルの帯域幅を最小化し、それぞれのトレーディングオフを両システムに残す。
我々は,この設計を逆転させ,ANN層における帯域幅の消費を最小化し,ORAM層におけるアクセス数を最小化することを提案する。
そこで我々は,Onyx-ANNSとOnyx-ORAMの2つの共同設計コンポーネントによるコスト効率のよいアプローチを提案する。Onyx-ANNSは,帯域幅の集中的なアクセスの大部分を積極的に引き起こすコンパクトな中間表現を導入し,Onyx-ORAMは,帯域幅効率のよいORAM技術と互換性を維持しながらアクセス数を削減できる,局所性を考慮した浅木設計を提案する。
最先端の難解なANN検索システムと比較すると、Onyxは1.7-9.9\times$低価格、2.3-12.3\times$低レイテンシを実現している。
関連論文リスト
- Scalable Disk-Based Approximate Nearest Neighbor Search with Page-Aligned Graph [3.994346326254537]
本稿では,ディスクベースの近接探索(ANNS)フレームワークであるPageANNを提案する。
その結果、PageANNは最先端(SOTA)ディスクベースのANNS法を著しく上回り、1.85x-10.83倍のスループット、51.7%-91.9%のレイテンシを異なるデータセットとメモリ予算で達成した。
論文 参考訳(メタデータ) (2025-09-29T20:44:13Z) - BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - WebANNS: Fast and Efficient Approximate Nearest Neighbor Search in Web Browsers [4.817548755757474]
ブラウザ内の近接探索(ANNS)は、現代のAIインフラにとって不可欠である。
本稿では,Webブラウザ向けに設計された新しいANNSエンジンであるWebANNSを提案する。
論文 参考訳(メタデータ) (2025-07-01T07:37:18Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FusionANNS: An Efficient CPU/GPU Cooperative Processing Architecture for Billion-scale Approximate Nearest Neighbor Search [9.724743360108835]
近似近接探索(ANNS)がデータベースとAIインフラストラクチャの重要なコンポーネントとして登場した。
数十億のデータセットを対象とした高スループット,低レイテンシ,低コスト,高精度なANNSシステムであるFusionANNSを提案する。
本稿では、CPUとGPU間のデータスワップを回避するための多層インデックス化、不要なI/Oや計算をなくすための再ランク付け、I/O効率をさらに向上するための冗長なI/Oデデューズという3つの新しい設計を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:14:01Z) - Continuous Ant-Based Neural Topology Search [62.200941836913586]
この研究は、アリコロニー最適化に基づく、自然に着想を得たニューラルアーキテクチャサーチ(NAS)アルゴリズムを導入している。
連続アントベースのニューラルトポロジーサーチ(CANTS)は、アリが現実世界でどのように動くかに強く影響を受けている。
論文 参考訳(メタデータ) (2020-11-21T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。