論文の概要: Bit-Parallel Vector Composability for Neural Acceleration
- arxiv url: http://arxiv.org/abs/2004.05333v1
- Date: Sat, 11 Apr 2020 08:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:08:39.160683
- Title: Bit-Parallel Vector Composability for Neural Acceleration
- Title(参考訳): ニューラル加速のためのビットパラレルベクトル構成性
- Authors: Soroush Ghodrati, Hardik Sharma, Cliff Young, Nam Sung Kim, Hadi
Esmaeilzadeh
- Abstract要約: 本稿では,各ユニットがインターリーブするビットレベルの操作のスライスにのみ責任を負う,異なる設計スタイルについて検討する。
これらのユニットの動的コレクションは実行時に協調して結果のビットを生成する。
4つの設計点において、ビットパラレルベクトル合成性は(1.4xから3.5x)スピードアップと(1.1xから2.7x)エネルギー削減をもたらす。
- 参考スコア(独自算出の注目度): 8.516848632777126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional neural accelerators rely on isolated self-sufficient functional
units that perform an atomic operation while communicating the results through
an operand delivery-aggregation logic. Each single unit processes all the bits
of their operands atomically and produce all the bits of the results in
isolation. This paper explores a different design style, where each unit is
only responsible for a slice of the bit-level operations to interleave and
combine the benefits of bit-level parallelism with the abundant data-level
parallelism in deep neural networks. A dynamic collection of these units
cooperate at runtime to generate bits of the results, collectively. Such
cooperation requires extracting new grouping between the bits, which is only
possible if the operands and operations are vectorizable. The abundance of Data
Level Parallelism and mostly repeated execution patterns, provides a unique
opportunity to define and leverage this new dimension of Bit-Parallel Vector
Composability. This design intersperses bit parallelism within data-level
parallelism and dynamically interweaves the two together. As such, the building
block of our neural accelerator is a Composable Vector Unit that is a
collection of Narrower-Bitwidth Vector Engines, which are dynamically composed
or decomposed at the bit granularity. Using six diverse CNN and LSTM deep
networks, we evaluate this design style across four design points: with and
without algorithmic bitwidth heterogeneity and with and without availability of
a high-bandwidth off-chip memory. Across these four design points, Bit-Parallel
Vector Composability brings (1.4x to 3.5x) speedup and (1.1x to 2.7x) energy
reduction. We also comprehensively compare our design style to the Nvidia RTX
2080 TI GPU, which also supports INT-4 execution. The benefits range between
28.0x and 33.7x improvement in Performance-per-Watt.
- Abstract(参考訳): 従来のニューラルアクセラレーターは、オペランド配信集約論理を通じて結果を伝達しながら原子操作を行う孤立した自己充足機能ユニットに依存している。
各ユニットはオペランドの全てのビットをアトミックに処理し、結果の全てのビットを分離して生成する。
本稿では,各ユニットがインターリーブするビットレベルの操作のスライスのみを担い,ビットレベルの並列処理と深層ニューラルネットワークにおける豊富なデータレベルの並列処理の利点を組み合わせる,異なる設計スタイルについて検討する。
これらのユニットの動的コレクションは実行時に協調して結果のビットを生成する。
このような協調は、演算子と操作がベクトル化可能である場合にのみ可能となるビット間の新たなグルーピングを抽出する必要がある。
データレベルの並列性と、主に繰り返し実行されるパターンの豊富さは、Bit-Parallel Vector Composabilityという新しい次元を定義し、活用するユニークな機会を提供します。
この設計は、データレベルの並列性の中でビット並列性を分散し、2つを動的に相互に織り込む。
このように、私たちのニューラルアクセラレーターのビルディングブロックは、Narrower-Bitwidth Vector EnginesのコレクションであるComposable Vector Unitであり、ビット粒度で動的に構成または分解される。
CNNとLSTMの6種類のディープネットワークを用いて,アルゴリズムによるビット幅の不均一性と,高帯域オフチップメモリの利用可能性と非使用性という4つの設計点において,この設計スタイルを評価する。
これら4つの設計点全体で、Bit-Parallel Vector Composabilityは(1.4xから3.5x)スピードアップと(1.1xから2.7x)エネルギー削減をもたらす。
また、私たちのデザインスタイルを、INT-4の実行もサポートするNvidia RTX 2080 TI GPUと総合的に比較しています。
効果は28.0倍から33.7倍に向上した。
関連論文リスト
- HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction [0.0]
自己注意機構は、ドット製品ベースのアクティベーションを通じてプログラムされた大きな暗黙の重み行列を利用して、訓練可能なパラメータがほとんどないため、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性について検討する。
このモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するための局所的なフィードバックエラー、安定なゼロ平均機能、より高速なトレーニング収束、より少ないモデルパラメータなど、優れた特性を示している。
論文 参考訳(メタデータ) (2024-01-31T15:57:21Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix
Acceleration in Tensorflow Lite [0.0]
FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して複雑さと並列性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
また,ソフトウェア最適化のNEON RUYライブラリ上では,単一コアで最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-04-17T12:31:50Z) - Optimizing data-flow in Binary Neural Networks [0.0]
本稿では,BNNパイプラインにおけるデータフローと並列性を向上させる新しいトレーニング手法を提案する。
また,ARM命令セットに対するバイナリ直接畳み込みを最適化した実装を提案する。
実験の結果,少なくとも1つの完全精度モデルに対して精度を低下させることなく,推論速度を一貫した改善(最先端の2つのBNNフレームワークと比較して最大1.91と2.73倍)した。
論文 参考訳(メタデータ) (2023-04-03T13:16:33Z) - xDeepInt: a hybrid architecture for modeling the vector-wise and
bit-wise feature interactions [0.0]
ベクトルワイドとビットワイドの機能相互作用の混合をバランスさせる新しいモデル xDeepInt を提案する。
実験の結果, 最先端モデルに対するxDeepIntの有効性と有効性を示した。
論文 参考訳(メタデータ) (2023-01-03T13:33:19Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image
Segmentation [98.90623605283564]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - Ramanujan Bipartite Graph Products for Efficient Block Sparse Neural
Networks [2.4235475271758076]
本稿では,グラフ積の理論を用いて,構造化マルチレベルブロックスパースニューラルネットワークを生成するフレームワークを提案する。
ラマヌジャングラフの積も提案するが、これは与えられた範囲で最高の接続性を与える。
我々は,VGG19とWideResnet-40-4ネットワークを用いて,CIFARデータセット上の画像分類タスクを実験することで,我々のアプローチをベンチマークする。
論文 参考訳(メタデータ) (2020-06-24T05:08:17Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。