論文の概要: ARM 4-BIT PQ: SIMD-based Acceleration for Approximate Nearest Neighbor
Search on ARM
- arxiv url: http://arxiv.org/abs/2203.02505v1
- Date: Thu, 3 Mar 2022 06:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 15:57:12.509225
- Title: ARM 4-BIT PQ: SIMD-based Acceleration for Approximate Nearest Neighbor
Search on ARM
- Title(参考訳): ARM 4-BIT PQ: SIMDベースのARM上の近似近傍探索高速化
- Authors: Yusuke Matsui, Yoshiki Imaizumi, Naoya Miyamoto, Naoki Yoshifuji
- Abstract要約: ARMアーキテクチャ上での4ビット製品量子化(PQ)を高速化する。
ARM固有のNEON命令を用いて各シャッフル操作を適用する。
実験の結果,提案手法は同じ精度で単純PQよりも10倍改善できることがわかった。
- 参考スコア(独自算出の注目度): 5.958428749954089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We accelerate the 4-bit product quantization (PQ) on the ARM architecture.
Notably, the drastic performance of the conventional 4-bit PQ strongly relies
on x64-specific SIMD register, such as AVX2; hence, we cannot yet achieve such
good performance on ARM. To fill this gap, we first bundle two 128-bit
registers as one 256-bit component. We then apply shuffle operations for each
using the ARM-specific NEON instruction. By making this simple but critical
modification, we achieve a dramatic speedup for the 4-bit PQ on an ARM
architecture. Experiments show that the proposed method consistently achieves a
10x improvement over the naive PQ with the same accuracy.
- Abstract(参考訳): ARMアーキテクチャ上での4ビット製品量子化(PQ)を高速化する。
特に、従来の4ビットpqの劇的な性能はavx2のようなx64固有のsimdレジスタに強く依存しているため、armではそのような優れた性能を達成できない。
このギャップを埋めるために、まず2つの128ビットレジスタを256ビットコンポーネントとしてバンドルする。
次に、ARM固有のNEON命令を使用して各シャッフル操作を適用する。
このシンプルだが重要な修正を行うことで、ARMアーキテクチャ上の4ビットPQの劇的な高速化を実現します。
実験の結果,提案手法は同じ精度で単純PQよりも10倍改善できることがわかった。
関連論文リスト
- ESPM-D: Efficient Sparse Polynomial Multiplication for Dilithium on ARM Cortex-M4 and Apple M2 [9.689791463749845]
Dilithiumは、NIST量子暗号(PQC)プロジェクトによって標準化された格子ベースのデジタル署名スキームである。
ARM Cortex-M4 と Apple M2 プラットフォーム用の Dilithium の効率的なスパース乗算実装を開発した。
私たちの研究は、ARM Cortex-M4とApple M2プラットフォームの両方で、Dilithiumの新たなパフォーマンス記録を設定しています。
論文 参考訳(メタデータ) (2024-04-19T07:21:55Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - 2QAN: A quantum compiler for 2-local qubit Hamiltonian simulation
algorithms [0.76146285961466]
量子回路を2局所量子ビットハミルトニアンシミュレーション問題に最適化する2QANというコンパイラを開発した。
2QANは、挿入されたSWAPゲートの数を11.5倍に減らし、ハードウェアゲートのオーバーヘッドを68.5倍に減らし、回路深さのオーバーヘッドを21倍に減らすことができる。
論文 参考訳(メタデータ) (2021-08-04T15:03:47Z) - Accelerating Markov Random Field Inference with Uncertainty
Quantification [10.825800519362579]
確率的アルゴリズムは従来のプロセッサでは計算コストがかかります
それらの統計的性質、すなわち解釈可能性と不確実量化(UQ)は、魅力的な代替手法である。
マルコフ確率場(MRF)推論のための高スループット加速器を提案する。
また、UQを効率的にサポートするための新しいハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。
論文 参考訳(メタデータ) (2021-08-02T00:02:53Z) - ARMS: Antithetic-REINFORCE-Multi-Sample Gradient for Binary Variables [60.799183326613395]
ReINFORCEを用いたマルチサンプル勾配推定器
ARMSはコプラを用いて、相互に合成されたサンプルを何個でも生成する。
生成モデルを訓練するための複数のデータセット上でARMSを評価し,実験結果から競合する手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-28T23:19:54Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - Efficient MPI-based Communication for GPU-Accelerated Dask Applications [1.211955119100926]
本稿では,Dask の新しい通信バックエンド MPI4Dask の設計と実装について述べる。
MPI4Daskは、Message Passing Interface標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。
我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍性能が高いことが示唆されている。
論文 参考訳(メタデータ) (2021-01-21T22:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。