論文の概要: S4: a High-sparsity, High-performance AI Accelerator
- arxiv url: http://arxiv.org/abs/2207.08006v1
- Date: Sat, 16 Jul 2022 19:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 18:35:22.878904
- Title: S4: a High-sparsity, High-performance AI Accelerator
- Title(参考訳): s4: 高性能で高性能なaiアクセラレータ
- Authors: Ian En-Hsu Yen, Zhibin Xiao, Dongkuan Xu
- Abstract要約: 私たちは、S4の32倍の高次空間加速をサポートする最初の商用ハードウェアプラットフォームを紹介します。
Nvidia T4のようなメインストリームの推論プラットフォーム上で、S4上での現実的な推論の高速化を実演する。
- 参考スコア(独自算出の注目度): 17.89361369545279
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Exploiting sparsity underlying neural networks has become one of the most
potential methodologies to reduce the memory footprint, I/O cost, and
computation workloads during inference. And the degree of sparsity one can
exploit has become higher as larger model sizes have been considered along with
the trend of pre-training giant models. On the other hand, compared with
quantization that has been a widely supported option, acceleration through
high-degree sparsity is not supported in most computing platforms. In this
work, we introduce the first commercial hardware platform supporting
high-degree sparsity acceleration up to 32 times -- S4. Combined with
state-of-the-art sparse pruning techniques, we demonstrate several-times
practical inference speedup on S4 over mainstream inference platforms such as
Nvidia T4. We also show that in practice a sparse model of larger size can
achieve both higher accuracy and higher throughput on S4 than a dense model of
smaller size.
- Abstract(参考訳): ニューラルネットワークを基盤とするスパーシリティの爆発は、推論中のメモリフットプリント、I/Oコスト、計算ワークロードを削減する最も潜在的な方法論の1つになった。
そして、事前訓練された巨大モデルの傾向とともに、より大きなモデルサイズが考慮されるにつれて、利用可能なスパーシリティの度合いも高まっている。
一方、広く支持されている量子化とは対照的に、ほとんどのコンピューティングプラットフォームでは、高次空間での加速度はサポートされない。
本研究では,S4の32倍の高次空間加速をサポートする最初の商用ハードウェアプラットフォームを紹介する。
最先端のスパースプルーニング技術と組み合わせることで、nvidia t4のような主流の推論プラットフォームよりも、s4の実用的推論スピードアップを複数回実証する。
また,サイズが小さいモデルよりも,サイズが小さいモデルの方が,s4の精度とスループットを両立できることを示した。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Diagonal State Spaces are as Effective as Structured State Spaces [3.8276199743296906]
音声コマンドのデータセット上での音声分類は、概念的にシンプルで実装が容易でありながら、Long Range Arenaタスク上でのS4のパフォーマンスと一致することを示す。
本研究は,低ランク補正を伴わずともS4の性能に一致できることを示し,状態行列を対角線と仮定する。
論文 参考訳(メタデータ) (2022-03-27T16:30:33Z) - Hybrid Neural Networks for On-device Directional Hearing [15.109811993590037]
DeepBeamは、従来のビームフォーマーとカスタム軽量ニューラルネットワークを組み合わせたハイブリッドモデルだ。
私たちのリアルタイムハイブリッドモデルは、低消費電力のウェアラブルデバイス用に設計されたモバイルCPU上で8ミリ秒で動作し、エンドツーエンドのレイテンシ17.5ミリ秒を実現しています。
論文 参考訳(メタデータ) (2021-12-11T01:29:12Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。