論文の概要: Low-Latency Online Multiplier with Reduced Activities and Minimized
Interconnect for Inner Product Arrays
- arxiv url: http://arxiv.org/abs/2304.12946v1
- Date: Thu, 6 Apr 2023 01:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 07:30:17.128606
- Title: Low-Latency Online Multiplier with Reduced Activities and Minimized
Interconnect for Inner Product Arrays
- Title(参考訳): 内部製品アレーの低遅延オンライン乗算器
- Authors: Muhammad Usman, Milos Ercegovac, Jeong-A Lee
- Abstract要約: 本稿では,オンライン算術や左から右への算術に基づく低レイテンシ乗算器を提案する。
オンライン算術は、データ依存に関係なく連続した操作を重複させることができる。
オンラインアルゴリズムのシリアルな性質と、アクティブスライスの段階的な増減は、相互接続と信号のアクティビティを最小化する。
- 参考スコア(独自算出の注目度): 0.8078491757252693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiplication is indispensable and is one of the core operations in many
modern applications including signal processing and neural networks.
Conventional right-to-left (RL) multiplier extensively contributes to the power
consumption, area utilization and critical path delay in such applications.
This paper proposes a low latency multiplier based on online or left-to-right
(LR) arithmetic which can increase throughput and reduce latency by digit-level
pipelining. Online arithmetic enables overlapping successive operations
regardless of data dependency because of the most significant digit first mode
of operation. To produce most significant digit first, it uses redundant number
system and we can have a carry-free addition, therefore, the delay of the
arithmetic operation is independent of operand bit width. The operations are
performed digit by digit serially from left to right which allows gradual
increase in the slice activities making it suitable for implementation on
reconfigurable devices. Serial nature of the online algorithm and gradual
increment/decrement of active slices minimize the interconnects and signal
activities resulting in overall reduction of area and power consumption. We
present online multipliers with; both inputs in serial, and one in serial and
one in parallel. Pipelined and non-pipelined designs of the proposed
multipliers have been synthesized with GSCL 45nm technology on Synopsys Design
Compiler. Thorough comparative analysis has been performed using widely used
performance metrics. The results show that the proposed online multipliers
outperform the RL multipliers.
- Abstract(参考訳): 乗算は不可欠であり、信号処理やニューラルネットワークを含む多くの現代のアプリケーションにおける中核的な操作の1つである。
従来の右から左への乗算器は, 電力消費, 面積利用, 臨界経路遅延に大きく寄与する。
本稿では,オンラインあるいは左利き(LR)演算に基づく低レイテンシ乗算器を提案する。
オンライン算術は、最も大きな桁の第1の操作モードのため、データ依存に関係なく連続した操作を重複させることができる。
最上位の桁を最初に生成するには冗長数システムを使用し、キャリーフリーな加算を行うことができるので、演算の遅延はオペランドビット幅とは無関係である。
操作は、左から右へ直列に数字で行われ、スライスアクティビティが徐々に増加し、再構成可能なデバイスの実装に適している。
オンラインアルゴリズムの連続的性質とアクティブスライスの段階的増減は相互接続と信号活動を最小限に抑え、結果として面積と消費電力の全体的な削減をもたらす。
オンライン乗算器は,2つの入力をシリアルで,一方をシリアルで,他方を並列で提示する。
提案した乗算器のパイプラインおよび非パイプライン設計は、Synopsys Design Compiler上でGSCL 45nm技術で合成されている。
より詳細な比較分析は広く使われているパフォーマンス指標を用いて行われている。
その結果,提案したオンライン乗算器はRL乗算器よりも優れていた。
関連論文リスト
- Multi-qubit Lattice Surgery Scheduling [3.7126786554865774]
量子回路は、唯一の非クリフォード多ビットゲートの列に変換できる。
本研究では, トランスパイレーションにより, テストした回路の回路長が大幅に減少することを示す。
結果として生じるマルチキュービットゲート回路は、シリアル実行よりも期待される回路実行時間を短縮する。
論文 参考訳(メタデータ) (2024-05-27T22:41:41Z) - Fast, Scalable, Warm-Start Semidefinite Programming with Spectral
Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。
USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2023-12-19T02:27:22Z) - DSLOT-NN: Digit-Serial Left-to-Right Neural Network Accelerator [0.6435156676256051]
本稿では,DSLOT-NNと呼ばれる,Digital-Serial left-tO-righT演算に基づく処理手法を提案する。
提案された研究は、大規模な電力と省エネをもたらす非効率な畳み込みを評価し、終わらせる能力を持っている。
論文 参考訳(メタデータ) (2023-09-12T07:36:23Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - ReLU and Addition-based Gated RNN [1.484528358552186]
従来のリカレントゲートの乗算とシグモイド関数を加算とReLUアクティベーションで置き換える。
このメカニズムは、シーケンス処理のための長期メモリを維持するために設計されているが、計算コストは削減されている。
論文 参考訳(メタデータ) (2023-08-10T15:18:16Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Multiplier with Reduced Activities and Minimized Interconnect for Inner
Product Arrays [0.8078491757252693]
本稿では,オンライン桁-シリアル算術に基づいて,アクティビティの削減と相互接続の最小化を図ったパイプライン乗算器を提案する。
8ドル、16ドル、24ドル、32ドルのビット精度で、提案された低消費電力パイプライン設計は、それぞれ38%ドルと44%ドルの電力と面積の削減を示す。
論文 参考訳(メタデータ) (2022-04-11T05:45:43Z) - Scaling the Convex Barrier with Sparse Dual Algorithms [141.4085318878354]
本稿では,ニューラルネットワークバウンダリングのための2つの新しい2重アルゴリズムを提案する。
どちらの方法も新しい緩和の強さを回復する: 厳密さと線形分離オラクル。
実行時間のほんの一部で、既製のソルバよりも優れた境界を得ることができます。
論文 参考訳(メタデータ) (2021-01-14T19:45:17Z) - WrapNet: Neural Net Inference with Ultra-Low-Resolution Arithmetic [57.07483440807549]
ニューラルネットワークをアキュムレータの低分解能(8ビット)加算に適応させ,32ビットのアキュムレータに匹敵する分類精度を実現する手法を提案する。
ソフトウェアプラットフォームとハードウェアプラットフォームの両方において、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-26T23:18:38Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。