論文の概要: Optimized Speculative Sampling for GPU Hardware Accelerators
- arxiv url: http://arxiv.org/abs/2406.11016v1
- Date: Sun, 16 Jun 2024 17:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:23:12.331806
- Title: Optimized Speculative Sampling for GPU Hardware Accelerators
- Title(参考訳): GPUハードウェアアクセラレータのための最適化投機サンプリング
- Authors: Dominik Wagner, Seanie Lee, Ilja Baumann, Philipp Seeberger, Korbinian Riedhammer, Tobias Bocklet,
- Abstract要約: 並列ハードウェアアクセラレータの投機的サンプリングを最適化し,サンプリング速度を向上する。
高速なオンチップメモリを用いて中間結果を保存し、読み込みと書き込みの遅い動作の頻度を最小化する。
本手法の有効性を検証するために,音声認識と要約タスクの両方について広範な実験を行った。
- 参考スコア(独自算出の注目度): 14.681982904792763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we optimize speculative sampling for parallel hardware accelerators to improve sampling speed. We notice that substantial portions of the intermediate matrices necessary for speculative sampling can be computed concurrently. This allows us to distribute the workload across multiple GPU threads, enabling simultaneous operations on matrix segments within thread blocks. Additionally, we use fast on-chip memory to store intermediate results, thereby minimizing the frequency of slow read and write operations across different types of memory. This results in profiling time improvements ranging from 6% to 13% relative to the baseline implementation, without compromising accuracy. To further accelerate speculative sampling, probability distributions parameterized by softmax are approximated by sigmoid. This approximation approach results in significantly greater relative improvements in profiling time, ranging from 37% to 94%, with a slight decline in accuracy. We conduct extensive experiments on both automatic speech recognition and summarization tasks to validate the effectiveness of our optimization methods.
- Abstract(参考訳): 本研究では,並列ハードウェアアクセラレータの投機的サンプリングを最適化し,サンプリング速度を向上する。
投機的サンプリングに必要な中間行列のかなりの部分が同時に計算できることに気付いた。
これにより、ワークロードを複数のGPUスレッドに分散し、スレッドブロック内のマトリックスセグメントでの同時操作を可能にします。
さらに、高速なオンチップメモリを用いて中間結果を保存し、異なるタイプのメモリ間での読み込みと書き込みの遅い操作の頻度を最小化する。
その結果、プロファイリング時間の改善は、ベースライン実装と比較して6%から13%まで、精度を損なうことなく実現できた。
さらに投機サンプリングを加速するため、ソフトマックスでパラメータ化された確率分布をシグモイドで近似する。
この近似手法は、プロファイリング時間を37%から94%に改善し、精度はわずかに低下する。
最適化手法の有効性を検証するために,音声認識と要約タスクの両方について広範な実験を行った。
関連論文リスト
- 3DGS-Calib: 3D Gaussian Splatting for Multimodal SpatioTemporal Calibration [9.825752747213297]
3DGS-Calitemporalは,3次元ガウススプティング表現の速度とレンダリング精度に依存する新しいキャリブレーション手法である。
提案手法の優位性を,広く使用されている運転データセットのシーケンスに関する実験結果を用いて実証する。
論文 参考訳(メタデータ) (2024-03-18T08:53:03Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - FastForest: Increasing Random Forest Processing Speed While Maintaining
Accuracy [2.6118176084782836]
提案したFastForestアルゴリズムは,ランダムフォレストと比較して処理速度が平均24%向上する。
それは45のデータセットを含むテストよりも、分類の精度で維持する(そしてしばしば超える)。
Subbaggingサイズに関する詳細なテストでは、処理性能と精度の正の混合を提供する最適なスカラーが見つかった。
論文 参考訳(メタデータ) (2020-04-06T06:37:03Z) - Scalable Hyperparameter Optimization with Lazy Gaussian Processes [1.3999481573773074]
本稿では,ガウス過程の高精度な新しい近似法を提案する。
最初の実験では、単一ノードにおける162の係数の高速化と、並列環境における5の係数のさらなる高速化が示されている。
論文 参考訳(メタデータ) (2020-01-16T10:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。