論文の概要: GATSPI: GPU Accelerated Gate-Level Simulation for Power Improvement
- arxiv url: http://arxiv.org/abs/2203.06117v1
- Date: Fri, 11 Mar 2022 17:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:43:53.887271
- Title: GATSPI: GPU Accelerated Gate-Level Simulation for Power Improvement
- Title(参考訳): GATSPI:GPU加速ゲートレベルシミュレーションによる電力効率向上
- Authors: Yanqing Zhang, Haoxing Ren, Akshay Sridharan, Brucek Khailany
- Abstract要約: GATSPIはPyTorchで記述されており、コーディングと保守性を簡単にするためのカスタムカーネルを備えている。
GATSPIは、業界標準の細胞ライブラリとSDF条件付き遅延ステートメントから、単純で複雑な細胞タイプをサポートする。
GATSPIをグリッチ最適化フローにデプロイし,449倍のスピードアップで1.4%の省電力を実現した。
- 参考スコア(独自算出の注目度): 6.230069159858188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present GATSPI, a novel GPU accelerated logic gate
simulator that enables ultra-fast power estimation for industry sized ASIC
designs with millions of gates. GATSPI is written in PyTorch with custom CUDA
kernels for ease of coding and maintainability. It achieves simulation kernel
speedup of up to 1668X on a single-GPU system and up to 7412X on a multiple-GPU
system when compared to a commercial gate-level simulator running on a single
CPU core. GATSPI supports a range of simple to complex cell types from an
industry standard cell library and SDF conditional delay statements without
requiring prior calibration runs and produces industry-standard SAIF files from
delay-aware gate-level simulation. Finally, we deploy GATSPI in a
glitch-optimization flow, achieving a 1.4% power saving with a 449X speedup in
turnaround time compared to a similar flow using a commercial simulator.
- Abstract(参考訳): 本稿では,数百万のゲートを持つ業界規模のasic設計に対して,超高速電力推定が可能なgpuアクセラレーション論理ゲートシミュレータgatspiを提案する。
GATSPIはPyTorchで記述されており、コーディングと保守性を簡単にするためのカスタムCUDAカーネルを備えている。
単一のCPUコア上で動作する商用ゲートレベルシミュレータと比較して、シングルGPUシステムでは最大1668X、マルチGPUシステムでは最大7412Xのシミュレーションカーネル高速化を実現する。
GATSPIは、業界標準のセルライブラリやSDF条件の遅延ステートメントから、事前のキャリブレーションを必要とせず、様々な単純な細胞タイプと複雑な細胞タイプをサポートし、遅延対応ゲートレベルシミュレーションから業界標準のSAIFファイルを生成する。
最後に,GATSPIをグリッチ最適化フローにデプロイし,商用シミュレータを用いた同様の流れと比較して,449倍の高速化で1.4%の省電力を実現した。
関連論文リスト
- Fast Simulation of High-Depth QAOA Circuits [10.778538580079365]
量子近似最適化アルゴリズム(QAOA)のシミュレータを提案する。
本シミュレータはQAOAパラメータ最適化の計算コストを削減することを目的として設計されている。
cuQuantumをベースとした最先端のGPU量子回路シミュレータと比較して,典型的なQAOAパラメータ最適化の時間を,$n = 26$ qubitsで11倍に短縮する。
論文 参考訳(メタデータ) (2023-09-09T17:01:29Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Optimizing Data Collection in Deep Reinforcement Learning [4.9709347068704455]
GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。
シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
論文 参考訳(メタデータ) (2022-07-15T20:22:31Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Towards real-time and energy efficient Siamese tracking -- a
hardware-software approach [0.0]
我々は、よく知られた完全接続型シームズトラッカー(SiamFC)のハードウェア・ソフトウェア実装を提案する。
我々は、FINNアクセラレーターのための量子化シームズネットワークを開発し、アルゴリズム・加速器の共設計を用いて設計空間探索を行った。
我々のネットワークでは、Zynq UltraScale+MPSoC ZCU104のプログラム可能な論理部で動作し、約50フレーム/秒の処理を、その浮動小数点演算と同等の精度で達成した。
論文 参考訳(メタデータ) (2022-05-21T18:31:07Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - BayesSimIG: Scalable Parameter Inference for Adaptive Domain
Randomization with IsaacGym [59.53949960353792]
BayesSimIGは、最近リリースされたNVIDIA IsaacGymと統合されたBayesSimの実装を提供するライブラリである。
BayesSimIGはNVIDIABoardと統合して、高次元の後方のスライスを簡単に視覚化する。
論文 参考訳(メタデータ) (2021-07-09T16:21:31Z) - TFApprox: Towards a Fast Emulation of DNN Approximate Hardware
Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。
DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。
このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2~3桁遅い。
論文 参考訳(メタデータ) (2020-02-21T08:22:56Z) - CSM-NN: Current Source Model Based Logic Circuit Simulation -- A Neural
Network Approach [5.365198933008246]
CSM-NNは、最適化されたニューラルネットワーク構造と処理アルゴリズムを備えたスケーラブルなシミュレーションフレームワークである。
実験によると、CSM-NNはCPU上で動作する最先端のソースモデルベースのシミュレータと比較して、シミュレーション時間を最大6倍に短縮する。
CSM-NNはまた、HSPICEと比較して2%以下の誤差で高い精度のレベルを提供する。
論文 参考訳(メタデータ) (2020-02-13T00:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。