論文の概要: WebANNS: Fast and Efficient Approximate Nearest Neighbor Search in Web Browsers
- arxiv url: http://arxiv.org/abs/2507.00521v2
- Date: Wed, 02 Jul 2025 02:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.47037
- Title: WebANNS: Fast and Efficient Approximate Nearest Neighbor Search in Web Browsers
- Title(参考訳): WebANNS:Webブラウザにおける高速で効率的な近似的近接検索
- Authors: Mugeng Liu, Siqi Zhong, Qi Yang, Yudong Han, Xuanzhe Liu, Yun Ma,
- Abstract要約: ブラウザ内の近接探索(ANNS)は、現代のAIインフラにとって不可欠である。
本稿では,Webブラウザ向けに設計された新しいANNSエンジンであるWebANNSを提案する。
- 参考スコア(独自算出の注目度): 4.817548755757474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximate nearest neighbor search (ANNS) has become vital to modern AI infrastructure, particularly in retrieval-augmented generation (RAG) applications. Numerous in-browser ANNS engines have emerged to seamlessly integrate with popular LLM-based web applications, while addressing privacy protection and challenges of heterogeneous device deployments. However, web browsers present unique challenges for ANNS, including computational limitations, external storage access issues, and memory utilization constraints, which state-of-the-art (SOTA) solutions fail to address comprehensively. We propose WebANNS, a novel ANNS engine specifically designed for web browsers. WebANNS leverages WebAssembly to overcome computational bottlenecks, designs a lazy loading strategy to optimize data retrieval from external storage, and applies a heuristic approach to reduce memory usage. Experiments show that WebANNS is fast and memory efficient, achieving up to $743.8\times$ improvement in 99th percentile query latency over the SOTA engine, while reducing memory usage by up to 39\%. Note that WebANNS decreases query time from 10 seconds to the 10-millisecond range in browsers, making in-browser ANNS practical with user-acceptable latency.
- Abstract(参考訳): 近似近接探索(ANNS)は、特に検索強化世代(RAG)アプリケーションにおいて、現代のAI基盤にとって欠かせないものとなっている。
多くのブラウザ内ANNSエンジンが、一般的なLLMベースのWebアプリケーションとシームレスに統合され、プライバシー保護と異種デバイスデプロイメントの課題に対処している。
しかし、Webブラウザは、計算の制限、外部ストレージアクセスの問題、メモリ利用の制約など、ANNSに固有の課題を呈している。
本稿では,Webブラウザ向けに設計された新しいANNSエンジンであるWebANNSを提案する。
WebANNSはWebAssemblyを活用して計算ボトルネックを克服し、外部ストレージからのデータ検索を最適化するための遅延ロード戦略を設計し、メモリ使用量の削減にヒューリスティックなアプローチを採用している。
実験の結果、WebANNSは高速でメモリ効率が高く、最大743.8 時間でSOTAエンジンの99番目のパーセンタイルクエリレイテンシを改善し、メモリ使用量を最大39 %削減した。
WebANNSは、ブラウザのクエリ時間を10秒から10ミリ秒の範囲に短縮し、ブラウザ内ANNSをユーザ許容のレイテンシで実用的にします。
関連論文リスト
- LoRaConnect: Unlocking HTTP Potential on LoRa Backbones for Remote Areas and Ad-Hoc Networks [26.152275462641168]
LoRa上のHTTPアクセスを可能にするために,LoRaConnectを提案する。
LoRaWebハードウェアは、クライアントデバイスがLoRa上でHTTPリソースに接続しアクセスするWiFiホットスポットをテザリングする。
LoRaWebは平均スループットが1.18KB/Sで、アクセス遅延は1.5KBのWebページで1.3S程度である。
論文 参考訳(メタデータ) (2025-01-05T07:41:53Z) - Anatomizing Deep Learning Inference in Web Browsers [17.63663828498732]
ブラウザ内推論の総合的なパフォーマンス測定を,これまでに初めて行った。
提案手法は,ブラウザ内推論(応答性,滑らか性,推測精度)を測定するための新しい指標を提案する。
ブラウザ内推論は、CPUでは平均16.9倍、GPUでは4.9倍の遅延差を示す。
論文 参考訳(メタデータ) (2024-02-08T08:02:57Z) - LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - Empowering In-Browser Deep Learning Inference on Edge Devices with Just-in-Time Kernel Optimizations [30.477092899633785]
本稿では,先駆的なブラウザ推論システム nnJIT について述べる。
nnJITは、エッジデバイス向けに最適化されたコンピューティングカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする。
その結果、nJITは既存のベースラインと比較して30秒で最大8.2倍高速に達成できることがわかった。
論文 参考訳(メタデータ) (2023-09-16T12:29:25Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - SmartDet: Context-Aware Dynamic Control of Edge Task Offloading for
Mobile Object Detection [19.106380479438172]
モバイルデバイスはますます、重要なタスクを実行するためにディープニューラルネットワーク(DNN)を介してオブジェクト検出(OD)に依存している。
低複雑さオブジェクトトラッキング(OT)はODで使用することができ、後者はトラッキングのための"フレッシュ"参照を生成するために定期的に適用される。
我々は,大規模なODレイテンシに耐性のある並列OT(モバイルデバイス)とOD(エッジサーバ)プロセスを提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:35Z) - Achieving on-Mobile Real-Time Super-Resolution with Neural Architecture
and Pruning Search [64.80878113422824]
リアルタイムの推論要求を満たすとともに、画像品質の高いスパース超解像モデル(SR)を導出する自動探索フレームワークを提案する。
提案したフレームワークでは、競合画像の品質を持つ720pの解像度を実現するために、リアルタイムSR推論(フレームあたり数ミリ秒)を初めて実現している。
論文 参考訳(メタデータ) (2021-08-18T06:47:31Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。