Fugu-MT 論文翻訳(概要): Co-design Hardware and Algorithm for Vector Search

論文の概要: Co-design Hardware and Algorithm for Vector Search

arxiv url: http://arxiv.org/abs/2306.11182v3
Date: Thu, 6 Jul 2023 13:52:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 17:00:33.162460
Title: Co-design Hardware and Algorithm for Vector Search
Title（参考訳）: ベクトル探索のための共設計ハードウェアとアルゴリズム
Authors: Wenqi Jiang and Shigang Li and Yu Zhu and Johannes de Fine Licht and Zhenhao He and Runbin Shi and Cedric Renggli and Shuai Zhang and Theodoros Rekatsinas and Torsten Hoefler and Gustavo Alonso
Abstract要約: FPGA上のエンドツーエンドかつスケーラブルなベクトル検索フレームワークである textitFANNS を紹介する。 textitFANNSはFPGAやCPUベースラインと比較して最大23.0$times$と37.2$times$のスピードアップを実現している。 textitFANNSの顕著なパフォーマンスは、データセンターとAIスーパーコンピュータにおける将来のFPGA統合の堅牢な基盤となる。
参考スコア（独自算出の注目度）: 29.98110572070595
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vector search has emerged as the foundation for large-scale information retrieval and machine learning systems, with search engines like Google and Bing processing tens of thousands of queries per second on petabyte-scale document datasets by evaluating vector similarities between encoded query texts and web documents. As performance demands for vector search systems surge, accelerated hardware offers a promising solution in the post-Moore's Law era. We introduce \textit{FANNS}, an end-to-end and scalable vector search framework on FPGAs. Given a user-provided recall requirement on a dataset and a hardware resource budget, \textit{FANNS} automatically co-designs hardware and algorithm, subsequently generating the corresponding accelerator. The framework also supports scale-out by incorporating a hardware TCP/IP stack in the accelerator. \textit{FANNS} attains up to 23.0$\times$ and 37.2$\times$ speedup compared to FPGA and CPU baselines, respectively, and demonstrates superior scalability to GPUs, achieving 5.5$\times$ and 7.6$\times$ speedup in median and 95\textsuperscript{th} percentile (P95) latency within an eight-accelerator configuration. The remarkable performance of \textit{FANNS} lays a robust groundwork for future FPGA integration in data centers and AI supercomputers.
Abstract（参考訳）: ベクトル検索は大規模な情報検索と機械学習システムの基盤として現れ、GoogleやBingといった検索エンジンは、エンコードされたクエリテキストとWebドキュメント間のベクトル類似性を評価することによって、ペタバイト規模のドキュメントデータセットで毎秒数万のクエリを処理する。ベクトル探索システムの性能要求が急増するにつれて、加速ハードウェアはムーアの法則時代において有望な解決策を提供する。 FPGA上のエンドツーエンドでスケーラブルなベクトル検索フレームワークである \textit{FANNS} を紹介する。データセットとハードウェアリソースの予算に関するユーザが提供するリコール要求を前提として、 \textit{FANNS}は自動的にハードウェアとアルゴリズムを設計し、それに対応するアクセラレータを生成する。このフレームワークは、ハードウェアTCP/IPスタックをアクセラレータに組み込むことでスケールアウトもサポートする。 fpgaとcpuのベースラインと比較して最大23.0$\times$と37.2$\times$ speedupを達成し、gpuに対する優れたスケーラビリティを示し、中央値で5.5$\times$と7.6$\times$ speedupを、8アクセラレータ構成で95$textsuperscript{th} percentile (p95)レイテンシを達成する。 textit{FANNS} の顕著な性能は、データセンターとAIスーパーコンピュータにおける将来のFPGA統合の堅牢な基盤となる。

関連論文リスト

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文参考訳（メタデータ） (2026-02-10T16:18:04Z)
Dato: A Task-Based Programming Model for Dataflow Accelerators [13.87015257740592]
データフローアクセラレーターのためのPython組み込みタスクベースのプログラミングモデルであるDatoを紹介する。 Datoはデータ通信とシャーディングをファーストクラスのコンストラクトに高める。 Datoは高いパフォーマンスを実現し、最適化されたコードを書くことの負担を大幅に削減します。
論文参考訳（メタデータ） (2025-09-08T15:22:51Z)
FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文参考訳（メタデータ） (2024-09-21T05:25:46Z)
ProTEA: Programmable Transformer Encoder Acceleration on FPGA [0.0]
トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。 TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。本稿では,最先端の変圧器エンコーダの高密度計算に適したプログラム実行アクセラレータである textitProTEA を紹介する。
論文参考訳（メタデータ） (2024-09-21T01:44:13Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文参考訳（メタデータ） (2023-11-04T10:38:21Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文参考訳（メタデータ） (2022-08-07T05:48:38Z)
Accelerating Large-Scale Graph-based Nearest Neighbor Search on a Computational Storage Platform [9.867170674550922]
本稿では,SmartSSD CSDに基づく大規模グラフベースの近接探索アルゴリズムを高速化する計算ストレージプラットフォームを提案する。その結果、提案した計算ストレージプラットフォームは、SIFT1Bデータセットの毎秒75.59クエリを258.66Wの消費電力で達成した。
論文参考訳（メタデータ） (2022-07-12T00:42:18Z)
Results of the NeurIPS'21 Challenge on Billion-Scale Approximate Nearest Neighbor Search [57.18075258042082]
このコンペティションは、ANNSアルゴリズムをハードウェアコスト、精度、性能で数十億ドル規模で比較する。このコンペティションのために新たに4つの、60億の多様なデータセットをまとめました。
論文参考訳（メタデータ） (2022-05-08T02:41:54Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
A fully pipelined FPGA accelerator for scale invariant feature transform keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文参考訳（メタデータ） (2020-12-17T15:29:41Z)
Real-Time Semantic Segmentation via Auto Depth, Downsampling Joint Decision and Feature Aggregation [54.28963233377946]
本稿では,セグメンテーション戦略の自動化を目的として,AutoRTNetという共同検索フレームワークを提案する。具体的には,ネットワーク深度とダウンサンプリング戦略を協調的に決定するハイパーセルと,自動マルチスケール機能アグリゲーションを実現するアグリゲーションセルを提案する。
論文参考訳（メタデータ） (2020-03-31T14:02:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。