論文の概要: Co-design Hardware and Algorithm for Vector Search
- arxiv url: http://arxiv.org/abs/2306.11182v3
- Date: Thu, 6 Jul 2023 13:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:00:33.162460
- Title: Co-design Hardware and Algorithm for Vector Search
- Title(参考訳): ベクトル探索のための共設計ハードウェアとアルゴリズム
- Authors: Wenqi Jiang and Shigang Li and Yu Zhu and Johannes de Fine Licht and
Zhenhao He and Runbin Shi and Cedric Renggli and Shuai Zhang and Theodoros
Rekatsinas and Torsten Hoefler and Gustavo Alonso
- Abstract要約: FPGA上のエンドツーエンドかつスケーラブルなベクトル検索フレームワークである textitFANNS を紹介する。
textitFANNSはFPGAやCPUベースラインと比較して最大23.0$times$と37.2$times$のスピードアップを実現している。
textitFANNSの顕著なパフォーマンスは、データセンターとAIスーパーコンピュータにおける将来のFPGA統合の堅牢な基盤となる。
- 参考スコア(独自算出の注目度): 29.98110572070595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vector search has emerged as the foundation for large-scale information
retrieval and machine learning systems, with search engines like Google and
Bing processing tens of thousands of queries per second on petabyte-scale
document datasets by evaluating vector similarities between encoded query texts
and web documents. As performance demands for vector search systems surge,
accelerated hardware offers a promising solution in the post-Moore's Law era.
We introduce \textit{FANNS}, an end-to-end and scalable vector search framework
on FPGAs. Given a user-provided recall requirement on a dataset and a hardware
resource budget, \textit{FANNS} automatically co-designs hardware and
algorithm, subsequently generating the corresponding accelerator. The framework
also supports scale-out by incorporating a hardware TCP/IP stack in the
accelerator. \textit{FANNS} attains up to 23.0$\times$ and 37.2$\times$ speedup
compared to FPGA and CPU baselines, respectively, and demonstrates superior
scalability to GPUs, achieving 5.5$\times$ and 7.6$\times$ speedup in median
and 95\textsuperscript{th} percentile (P95) latency within an eight-accelerator
configuration. The remarkable performance of \textit{FANNS} lays a robust
groundwork for future FPGA integration in data centers and AI supercomputers.
- Abstract(参考訳): ベクトル検索は大規模な情報検索と機械学習システムの基盤として現れ、GoogleやBingといった検索エンジンは、エンコードされたクエリテキストとWebドキュメント間のベクトル類似性を評価することによって、ペタバイト規模のドキュメントデータセットで毎秒数万のクエリを処理する。
ベクトル探索システムの性能要求が急増するにつれて、加速ハードウェアはムーアの法則時代において有望な解決策を提供する。
FPGA上のエンドツーエンドでスケーラブルなベクトル検索フレームワークである \textit{FANNS} を紹介する。
データセットとハードウェアリソースの予算に関するユーザが提供するリコール要求を前提として、 \textit{FANNS}は自動的にハードウェアとアルゴリズムを設計し、それに対応するアクセラレータを生成する。
このフレームワークは、ハードウェアTCP/IPスタックをアクセラレータに組み込むことでスケールアウトもサポートする。
fpgaとcpuのベースラインと比較して最大23.0$\times$と37.2$\times$ speedupを達成し、gpuに対する優れたスケーラビリティを示し、中央値で5.5$\times$と7.6$\times$ speedupを、8アクセラレータ構成で95$textsuperscript{th} percentile (p95)レイテンシを達成する。
textit{FANNS} の顕著な性能は、データセンターとAIスーパーコンピュータにおける将来のFPGA統合の堅牢な基盤となる。
関連論文リスト
- FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。
私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。
提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文 参考訳(メタデータ) (2023-11-04T10:38:21Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Accelerating Large-Scale Graph-based Nearest Neighbor Search on a
Computational Storage Platform [9.867170674550922]
本稿では,SmartSSD CSDに基づく大規模グラフベースの近接探索アルゴリズムを高速化する計算ストレージプラットフォームを提案する。
その結果、提案した計算ストレージプラットフォームは、SIFT1Bデータセットの毎秒75.59クエリを258.66Wの消費電力で達成した。
論文 参考訳(メタデータ) (2022-07-12T00:42:18Z) - Results of the NeurIPS'21 Challenge on Billion-Scale Approximate Nearest
Neighbor Search [57.18075258042082]
このコンペティションは、ANNSアルゴリズムをハードウェアコスト、精度、性能で数十億ドル規模で比較する。
このコンペティションのために新たに4つの、60億の多様なデータセットをまとめました。
論文 参考訳(メタデータ) (2022-05-08T02:41:54Z) - Query Processing on Tensor Computation Runtimes [8.538245568038654]
人工知能(AI)における計算の膨大な需要は、AIのための新しいハードウェアとソフトウェアシステムに、例外なく投資している。
テンソルベースのインターフェースを通じて低レベルの複雑性を隠すことで、PyTorchのようなテンソルランタイム(TCR)は、データサイエンティストが新しいハードウェアが提供するエキサイティングな機能を効率的に活用することができる。
論文 参考訳(メタデータ) (2022-03-03T17:41:39Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - A fully pipelined FPGA accelerator for scale invariant feature transform
keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。
提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。
私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文 参考訳(メタデータ) (2020-12-17T15:29:41Z) - Real-Time Semantic Segmentation via Auto Depth, Downsampling Joint
Decision and Feature Aggregation [54.28963233377946]
本稿では,セグメンテーション戦略の自動化を目的として,AutoRTNetという共同検索フレームワークを提案する。
具体的には,ネットワーク深度とダウンサンプリング戦略を協調的に決定するハイパーセルと,自動マルチスケール機能アグリゲーションを実現するアグリゲーションセルを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。