Fugu-MT 論文翻訳(概要): TPU-KNN: K Nearest Neighbor Search at Peak FLOP/s

論文の概要: TPU-KNN: K Nearest Neighbor Search at Peak FLOP/s

arxiv url: http://arxiv.org/abs/2206.14286v1
Date: Tue, 28 Jun 2022 20:53:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-01 06:25:23.368838
Title: TPU-KNN: K Nearest Neighbor Search at Peak FLOP/s
Title（参考訳）: tpu-knn: ピークフロップ/sでk最寄りの近傍探索
Authors: Felix Chern, Blake Hechtman, Andy Davis, Ruiqi Guo, David Majnemer, Sanjiv Kumar
Abstract要約: 本稿では、TPUピーク性能を達成し、類似のリコールレベルを持つ最先端のGPUアルゴリズムより優れる新しい近接探索アルゴリズムを提案する。提案アルゴリズムは,予測時のリコールを解析的に保証し,高度なインデックスデータ構造やチューニングの維持を必要としない。
参考スコア（独自算出の注目度）: 26.432336114533005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a novel nearest neighbor search algorithm achieving TPU (Google Tensor Processing Unit) peak performance, outperforming state-of-the-art GPU algorithms with similar level of recall. The design of the proposed algorithm is motivated by an accurate accelerator performance model that takes into account both the memory and instruction bottlenecks. Our algorithm comes with an analytical guarantee of recall in expectation and does not require maintaining sophisticated index data structure or tuning, making it suitable for applications with frequent updates. Our work is available in the open-source package of Jax and Tensorflow on TPU.
Abstract（参考訳）: 本稿では、TPU(Google Tensor Processing Unit)のピーク性能を達成し、類似のリコールレベルを持つ最先端のGPUアルゴリズムより優れている新しい近接探索アルゴリズムを提案する。提案アルゴリズムの設計は,メモリと命令のボトルネックを考慮した精度の高いアクセラレーション性能モデルによって動機付けられている。提案アルゴリズムは,予測時のリコールを解析的に保証し,高精度なインデックスデータ構造やチューニングを必要とせず,頻繁な更新を伴うアプリケーションに適している。私たちの仕事は、TPU上のJoxとTensorflowのオープンソースパッケージで利用可能です。

関連論文リスト

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文参考訳（メタデータ） (2026-02-10T16:18:04Z)
GPU-Accelerated Loopy Belief Propagation for Program Analysis [3.516434517865342]
本稿では,プログラム解析のためのGPU高速化LPPアルゴリズムを提案する。本稿では,依存関係解析アルゴリズムとともに,任意のユーザ定義更新戦略を指定する統一表現を提案する。当社のアプローチでは,最先端のシーケンシャルアプローチよりも平均2.14タイム,最先端のGPUベースのアプローチよりも5.56タイムのスピードアップを実現している。
論文参考訳（メタデータ） (2025-09-26T13:30:30Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Experimental comparison of graph-based approximate nearest neighbor search algorithms on edge devices [1.5495593104596401]
本稿では, エッジデバイス上に配置したグラフベースニアニアニアサーチアルゴリズム(ANN)を, リアルタイムニアニアサーチアプリケーションに適用するための実験結果と比較する。
論文参考訳（メタデータ） (2024-11-21T10:41:24Z)
LoRANN: Low-Rank Matrix Factorization for Approximate Nearest Neighbor Search [4.194768796374315]
本稿では,内積近似が多出力回帰問題であることを示す観測に基づく新しい教師付きスコア計算法を提案する。実験の結果,提案手法はクエリ待ち時間とメモリ使用量の両方においてPQよりも優れていることがわかった。また,クラスタリングに基づくANNライブラリであるLoRANNを導入する。
論文参考訳（メタデータ） (2024-10-24T17:13:39Z)
Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。 Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文参考訳（メタデータ） (2024-07-03T01:24:44Z)
GPU Based Differential Evolution: New Insights and Comparative Study [7.5961910202572644]
この研究は、GPUベースの微分進化アルゴリズムの文献における主要なアーキテクチャ選択についてレビューする。新しいGPUベースの数値最適化ベンチマークを導入し、GPUベースのDEMアルゴリズムを評価し比較する。
論文参考訳（メタデータ） (2024-05-26T12:40:39Z)
A Theoretical Analysis Of Nearest Neighbor Search On Approximate Near Neighbor Graph [51.880164098926166]
グラフベースのアルゴリズムは、近隣探索(NN-Search)問題において最先端の性能を示す。グラフベースのNN-Searchアルゴリズムには実践と理論のギャップがある。低次元および高密度ベクトルに対する ANN-Graph 上の欲求探索による NN-Search の解法を理論的に保証する。
論文参考訳（メタデータ） (2023-03-10T21:18:34Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-11-18T16:40:45Z)
Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文参考訳（メタデータ） (2020-08-29T14:58:26Z)
Scalable Plug-and-Play ADMM with Convergence Guarantees [24.957046830965822]
広範に使われている変種を漸進的に提案する。 ADMMアルゴリズムにより、大規模データセットにスケーラブルになる。理論的には,集合的明示的な仮定の下で収束アルゴリズムを解析する。
論文参考訳（メタデータ） (2020-06-05T04:10:15Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。