Fugu-MT 論文翻訳(概要): ARM 4-BIT PQ: SIMD-based Acceleration for Approximate Nearest Neighbor Search on ARM

論文の概要: ARM 4-BIT PQ: SIMD-based Acceleration for Approximate Nearest Neighbor Search on ARM

arxiv url: http://arxiv.org/abs/2203.02505v1
Date: Thu, 3 Mar 2022 06:19:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-08 15:57:12.509225
Title: ARM 4-BIT PQ: SIMD-based Acceleration for Approximate Nearest Neighbor Search on ARM
Title（参考訳）: ARM 4-BIT PQ: SIMDベースのARM上の近似近傍探索高速化
Authors: Yusuke Matsui, Yoshiki Imaizumi, Naoya Miyamoto, Naoki Yoshifuji
Abstract要約: ARMアーキテクチャ上での4ビット製品量子化(PQ)を高速化する。 ARM固有のNEON命令を用いて各シャッフル操作を適用する。実験の結果,提案手法は同じ精度で単純PQよりも10倍改善できることがわかった。
参考スコア（独自算出の注目度）: 5.958428749954089
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We accelerate the 4-bit product quantization (PQ) on the ARM architecture. Notably, the drastic performance of the conventional 4-bit PQ strongly relies on x64-specific SIMD register, such as AVX2; hence, we cannot yet achieve such good performance on ARM. To fill this gap, we first bundle two 128-bit registers as one 256-bit component. We then apply shuffle operations for each using the ARM-specific NEON instruction. By making this simple but critical modification, we achieve a dramatic speedup for the 4-bit PQ on an ARM architecture. Experiments show that the proposed method consistently achieves a 10x improvement over the naive PQ with the same accuracy.
Abstract（参考訳）: ARMアーキテクチャ上での4ビット製品量子化(PQ)を高速化する。特に、従来の4ビットpqの劇的な性能はavx2のようなx64固有のsimdレジスタに強く依存しているため、armではそのような優れた性能を達成できない。このギャップを埋めるために、まず2つの128ビットレジスタを256ビットコンポーネントとしてバンドルする。次に、ARM固有のNEON命令を使用して各シャッフル操作を適用する。このシンプルだが重要な修正を行うことで、ARMアーキテクチャ上の4ビットPQの劇的な高速化を実現します。実験の結果,提案手法は同じ精度で単純PQよりも10倍改善できることがわかった。

関連論文リスト

AEQUAM: Accelerating Quantum Algorithm Validation through FPGA-Based Emulation [0.46873264197900916]
AEQUAMは、より高速でアクセスしやすい量子回路検証を可能にするツールチェーンである。 OpenQASM 2.0をRISCライクな命令に変換するコンパイラと、数値表現とシミュレート回路を選択するCythonソフトウェアモデルと、FPGAベースのハードウェアエミュレータ用のRTL記述を生成するVHDLジェネレータで構成される。
論文参考訳（メタデータ） (2025-06-01T14:17:23Z)
High-Performance ARM-on-ARM Virtualization for Multicore SystemC-TLM-Based Virtual Platforms [0.16492989697868893]
ARM-on-ARM仮想プラットフォームは、計算集約的なワークロード上の従来の命令セットシミュレータベースのモデルよりも最大10倍のスピードアップを実現している。命令セットシミュレータのドロップイン代替として使用できるマルチコアのSystemC-TLMベースのCPUモデルを提案する。
論文参考訳（メタデータ） (2025-05-19T11:21:45Z)
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。 3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文参考訳（メタデータ） (2025-02-04T18:59:26Z)
gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography [15.39096542261856]
Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。 ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
論文参考訳（メタデータ） (2024-12-22T01:50:50Z)
ESPM-D: Efficient Sparse Polynomial Multiplication for Dilithium on ARM Cortex-M4 and Apple M2 [9.689791463749845]
Dilithiumは、NIST量子暗号(PQC)プロジェクトによって標準化された格子ベースのデジタル署名スキームである。 ARM Cortex-M4 と Apple M2 プラットフォーム用の Dilithium の効率的なスパース乗算実装を開発した。私たちの研究は、ARM Cortex-M4とApple M2プラットフォームの両方で、Dilithiumの新たなパフォーマンス記録を設定しています。
論文参考訳（メタデータ） (2024-04-19T07:21:55Z)
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文参考訳（メタデータ） (2023-10-25T17:24:53Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。 FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文参考訳（メタデータ） (2022-05-27T17:53:09Z)
2QAN: A quantum compiler for 2-local qubit Hamiltonian simulation algorithms [0.76146285961466]
量子回路を2局所量子ビットハミルトニアンシミュレーション問題に最適化する2QANというコンパイラを開発した。 2QANは、挿入されたSWAPゲートの数を11.5倍に減らし、ハードウェアゲートのオーバーヘッドを68.5倍に減らし、回路深さのオーバーヘッドを21倍に減らすことができる。
論文参考訳（メタデータ） (2021-08-04T15:03:47Z)
Accelerating Markov Random Field Inference with Uncertainty Quantification [10.825800519362579]
確率的アルゴリズムは従来のプロセッサでは計算コストがかかりますそれらの統計的性質、すなわち解釈可能性と不確実量化(UQ)は、魅力的な代替手法である。マルコフ確率場(MRF)推論のための高スループット加速器を提案する。また、UQを効率的にサポートするための新しいハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。
論文参考訳（メタデータ） (2021-08-02T00:02:53Z)
ARMS: Antithetic-REINFORCE-Multi-Sample Gradient for Binary Variables [60.799183326613395]
ReINFORCEを用いたマルチサンプル勾配推定器 ARMSはコプラを用いて、相互に合成されたサンプルを何個でも生成する。生成モデルを訓練するための複数のデータセット上でARMSを評価し,実験結果から競合する手法よりも優れた結果が得られた。
論文参考訳（メタデータ） (2021-05-28T23:19:54Z)
Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。 SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文参考訳（メタデータ） (2021-05-23T20:12:35Z)
Efficient MPI-based Communication for GPU-Accelerated Dask Applications [1.211955119100926]
本稿では,Dask の新しい通信バックエンド MPI4Dask の設計と実装について述べる。 MPI4Daskは、Message Passing Interface標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍性能が高いことが示唆されている。
論文参考訳（メタデータ） (2021-01-21T22:59:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。