論文の概要: Exact Nearest-Neighbor Search on Energy-Efficient FPGA Devices
- arxiv url: http://arxiv.org/abs/2510.16736v1
- Date: Sun, 19 Oct 2025 07:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.119996
- Title: Exact Nearest-Neighbor Search on Energy-Efficient FPGA Devices
- Title(参考訳): エネルギー効率のよいFPGAデバイスにおける近接探索
- Authors: Patrizio Dazzi, William Guglielmo, Franco Maria Nardini, Raffaele Perego, Salvatore Trani,
- Abstract要約: 本稿では,FPGAの低レベル構成を同一とする2つの異なるエネルギー効率ソリューションを提案する。
最初のソリューションは、バッチのクエリをストリームデータセット上で並列に処理することで、システムのスループットを最大化する。
2つ目は、各kNN受信クエリをインメモリデータセット上で並列に処理することで、レイテンシを最小限にする。
- 参考スコア(独自算出の注目度): 10.725513609195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the usage of FPGA devices for energy-efficient exact kNN search in high-dimension latent spaces. This work intercepts a relevant trend that tries to support the increasing popularity of learned representations based on neural encoder models by making their large-scale adoption greener and more inclusive. The paper proposes two different energy-efficient solutions adopting the same FPGA low-level configuration. The first solution maximizes system throughput by processing the queries of a batch in parallel over a streamed dataset not fitting into the FPGA memory. The second minimizes latency by processing each kNN incoming query in parallel over an in-memory dataset. Reproducible experiments on publicly available image and text datasets show that our solution outperforms state-of-the-art CPU-based competitors regarding throughput, latency, and energy consumption. Specifically, experiments show that the proposed FPGA solutions achieve the best throughput in terms of queries per second and the best-observed latency with scale-up factors of up to 16.6X. Similar considerations can be made regarding energy efficiency, where results show that our solutions can achieve up to 11.9X energy saving w.r.t. strong CPU-based competitors.
- Abstract(参考訳): 本稿では,高次元ラテント空間におけるエネルギー効率の高いkNN探索におけるFPGAデバイスの利用について検討する。
この研究は、ニューラルネットワークモデルに基づく学習表現の普及をサポートするために、大規模な採用をよりグリーンで包括的にすることで、関連するトレンドをインターセプトする。
本稿では,FPGAの低レベル構成を同一とする2つの異なるエネルギー効率ソリューションを提案する。
最初のソリューションは、FPGAメモリに収まらないストリームデータセット上でバッチのクエリを並列に処理することで、システムのスループットを最大化する。
2つ目は、各kNN受信クエリをインメモリデータセット上で並列に処理することで、レイテンシを最小限にする。
公開されている画像とテキストデータセットの再現可能な実験により、私たちのソリューションは、スループット、レイテンシ、エネルギー消費に関する最先端のCPUベースの競合よりも優れています。
具体的には、提案したFPGAソリューションが、1秒あたりのクエリで最高のスループットを実現し、最大16.6倍のスケールアップ係数で最も観測可能なレイテンシを実現することを示す。
同様の考慮はエネルギー効率に関して行われ、その結果、強力なCPUベースの競合相手に対して最大1.9倍の省エネを実現できることが示されている。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Accelerated Charged Particle Tracking with Graph Neural Networks on
FPGAs [0.0]
グラフニューラルネットワークに基づく荷電粒子追跡のためのアルゴリズムのFPGA実装を開発し,研究する。
CPUベースの実行の大幅な高速化が可能であり、将来的にはそのようなアルゴリズムを効果的に利用できるようになる可能性がある。
論文 参考訳(メタデータ) (2020-11-30T18:17:43Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。