論文の概要: Bit-Parallel Vector Composability for Neural Acceleration
- arxiv url: http://arxiv.org/abs/2004.05333v1
- Date: Sat, 11 Apr 2020 08:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:08:39.160683
- Title: Bit-Parallel Vector Composability for Neural Acceleration
- Title(参考訳): ニューラル加速のためのビットパラレルベクトル構成性
- Authors: Soroush Ghodrati, Hardik Sharma, Cliff Young, Nam Sung Kim, Hadi
Esmaeilzadeh
- Abstract要約: 本稿では,各ユニットがインターリーブするビットレベルの操作のスライスにのみ責任を負う,異なる設計スタイルについて検討する。
これらのユニットの動的コレクションは実行時に協調して結果のビットを生成する。
4つの設計点において、ビットパラレルベクトル合成性は(1.4xから3.5x)スピードアップと(1.1xから2.7x)エネルギー削減をもたらす。
- 参考スコア(独自算出の注目度): 8.516848632777126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional neural accelerators rely on isolated self-sufficient functional
units that perform an atomic operation while communicating the results through
an operand delivery-aggregation logic. Each single unit processes all the bits
of their operands atomically and produce all the bits of the results in
isolation. This paper explores a different design style, where each unit is
only responsible for a slice of the bit-level operations to interleave and
combine the benefits of bit-level parallelism with the abundant data-level
parallelism in deep neural networks. A dynamic collection of these units
cooperate at runtime to generate bits of the results, collectively. Such
cooperation requires extracting new grouping between the bits, which is only
possible if the operands and operations are vectorizable. The abundance of Data
Level Parallelism and mostly repeated execution patterns, provides a unique
opportunity to define and leverage this new dimension of Bit-Parallel Vector
Composability. This design intersperses bit parallelism within data-level
parallelism and dynamically interweaves the two together. As such, the building
block of our neural accelerator is a Composable Vector Unit that is a
collection of Narrower-Bitwidth Vector Engines, which are dynamically composed
or decomposed at the bit granularity. Using six diverse CNN and LSTM deep
networks, we evaluate this design style across four design points: with and
without algorithmic bitwidth heterogeneity and with and without availability of
a high-bandwidth off-chip memory. Across these four design points, Bit-Parallel
Vector Composability brings (1.4x to 3.5x) speedup and (1.1x to 2.7x) energy
reduction. We also comprehensively compare our design style to the Nvidia RTX
2080 TI GPU, which also supports INT-4 execution. The benefits range between
28.0x and 33.7x improvement in Performance-per-Watt.
- Abstract(参考訳): 従来のニューラルアクセラレーターは、オペランド配信集約論理を通じて結果を伝達しながら原子操作を行う孤立した自己充足機能ユニットに依存している。
各ユニットはオペランドの全てのビットをアトミックに処理し、結果の全てのビットを分離して生成する。
本稿では,各ユニットがインターリーブするビットレベルの操作のスライスのみを担い,ビットレベルの並列処理と深層ニューラルネットワークにおける豊富なデータレベルの並列処理の利点を組み合わせる,異なる設計スタイルについて検討する。
これらのユニットの動的コレクションは実行時に協調して結果のビットを生成する。
このような協調は、演算子と操作がベクトル化可能である場合にのみ可能となるビット間の新たなグルーピングを抽出する必要がある。
データレベルの並列性と、主に繰り返し実行されるパターンの豊富さは、Bit-Parallel Vector Composabilityという新しい次元を定義し、活用するユニークな機会を提供します。
この設計は、データレベルの並列性の中でビット並列性を分散し、2つを動的に相互に織り込む。
このように、私たちのニューラルアクセラレーターのビルディングブロックは、Narrower-Bitwidth Vector EnginesのコレクションであるComposable Vector Unitであり、ビット粒度で動的に構成または分解される。
CNNとLSTMの6種類のディープネットワークを用いて,アルゴリズムによるビット幅の不均一性と,高帯域オフチップメモリの利用可能性と非使用性という4つの設計点において,この設計スタイルを評価する。
これら4つの設計点全体で、Bit-Parallel Vector Composabilityは(1.4xから3.5x)スピードアップと(1.1xから2.7x)エネルギー削減をもたらす。
また、私たちのデザインスタイルを、INT-4の実行もサポートするNvidia RTX 2080 TI GPUと総合的に比較しています。
効果は28.0倍から33.7倍に向上した。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Tiled Bit Networks: Sub-Bit Neural Network Compression Through Reuse of Learnable Binary Vectors [4.95475852994362]
本稿では,バイナリ重み付きニューラルネットワークのサブビット圧縮を実現するために,ビット列を持つタイル型ニューラルネットワーク層に対する新しい量子化方式を提案する。
私たちは完全に接続された層と畳み込み層の両方にアプローチを採用しています。
論文 参考訳(メタデータ) (2024-07-16T15:55:38Z) - Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。
AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。
理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix
Acceleration in Tensorflow Lite [0.0]
FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して複雑さと並列性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
また,ソフトウェア最適化のNEON RUYライブラリ上では,単一コアで最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-04-17T12:31:50Z) - Hector: An Efficient Programming and Compilation Framework for Implementing Relational Graph Neural Networks in GPU Architectures [24.841128441671234]
RGNNは、異種グラフ内の異なるタイプのノードとエッジをモデリングするための専用の構造を持つグラフニューラルネットワークである。
本稿では,新しい2レベル中間表現とコード生成フレームワークであるHectorを提案し,RGNNモデルの鍵となる特性を捉える。
Hectorは、最先端のパブリックシステムと比較して、推論で最大9.9倍、トレーニングで最大43.7倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-01-16T06:53:18Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。