論文の概要: GATSPI: GPU Accelerated Gate-Level Simulation for Power Improvement
- arxiv url: http://arxiv.org/abs/2203.06117v1
- Date: Fri, 11 Mar 2022 17:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:43:53.887271
- Title: GATSPI: GPU Accelerated Gate-Level Simulation for Power Improvement
- Title(参考訳): GATSPI:GPU加速ゲートレベルシミュレーションによる電力効率向上
- Authors: Yanqing Zhang, Haoxing Ren, Akshay Sridharan, Brucek Khailany
- Abstract要約: GATSPIはPyTorchで記述されており、コーディングと保守性を簡単にするためのカスタムカーネルを備えている。
GATSPIは、業界標準の細胞ライブラリとSDF条件付き遅延ステートメントから、単純で複雑な細胞タイプをサポートする。
GATSPIをグリッチ最適化フローにデプロイし,449倍のスピードアップで1.4%の省電力を実現した。
- 参考スコア(独自算出の注目度): 6.230069159858188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present GATSPI, a novel GPU accelerated logic gate
simulator that enables ultra-fast power estimation for industry sized ASIC
designs with millions of gates. GATSPI is written in PyTorch with custom CUDA
kernels for ease of coding and maintainability. It achieves simulation kernel
speedup of up to 1668X on a single-GPU system and up to 7412X on a multiple-GPU
system when compared to a commercial gate-level simulator running on a single
CPU core. GATSPI supports a range of simple to complex cell types from an
industry standard cell library and SDF conditional delay statements without
requiring prior calibration runs and produces industry-standard SAIF files from
delay-aware gate-level simulation. Finally, we deploy GATSPI in a
glitch-optimization flow, achieving a 1.4% power saving with a 449X speedup in
turnaround time compared to a similar flow using a commercial simulator.
- Abstract(参考訳): 本稿では,数百万のゲートを持つ業界規模のasic設計に対して,超高速電力推定が可能なgpuアクセラレーション論理ゲートシミュレータgatspiを提案する。
GATSPIはPyTorchで記述されており、コーディングと保守性を簡単にするためのカスタムCUDAカーネルを備えている。
単一のCPUコア上で動作する商用ゲートレベルシミュレータと比較して、シングルGPUシステムでは最大1668X、マルチGPUシステムでは最大7412Xのシミュレーションカーネル高速化を実現する。
GATSPIは、業界標準のセルライブラリやSDF条件の遅延ステートメントから、事前のキャリブレーションを必要とせず、様々な単純な細胞タイプと複雑な細胞タイプをサポートし、遅延対応ゲートレベルシミュレーションから業界標準のSAIFファイルを生成する。
最後に,GATSPIをグリッチ最適化フローにデプロイし,商用シミュレータを用いた同様の流れと比較して,449倍の高速化で1.4%の省電力を実現した。
関連論文リスト
- Introducing GPU-acceleration into the Python-based Simulations of Chemistry Framework [4.368931200886271]
我々はPySCFのメソッドのGPUアクセラレーションを提供するモジュールであるGPU4PySCFの最初のバージョンを紹介する。
ベンチマーク計算は、PySCFのマルチスレッドCPUHartree-Fockコードに対して、2桁の大幅な高速化を示している。
論文 参考訳(メタデータ) (2024-07-12T21:50:19Z) - Fast Algorithms for Spiking Neural Network Simulation with FPGAs [0.0]
我々は、ハイエンドフィールドプログラマブルゲートアレイ(FPGA)のためのPotjans-Diesmann大脳皮質微小回路のためのスパイキングニューラルネットワークシミュレータ(SNN)を作成する。
我々の最高のシミュレーターは、回路をリアルタイムよりも25%高速にシミュレートし、シナプスイベントあたり21nJ未満が必要であり、オンチップメモリによってボトルネックされる。
この結果は、単一のハードウェアアクセラレータ上で回路をシミュレートする最初のものである。
論文 参考訳(メタデータ) (2024-05-03T11:39:25Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Optimizing Data Collection in Deep Reinforcement Learning [4.9709347068704455]
GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。
シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
論文 参考訳(メタデータ) (2022-07-15T20:22:31Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - BayesSimIG: Scalable Parameter Inference for Adaptive Domain
Randomization with IsaacGym [59.53949960353792]
BayesSimIGは、最近リリースされたNVIDIA IsaacGymと統合されたBayesSimの実装を提供するライブラリである。
BayesSimIGはNVIDIABoardと統合して、高次元の後方のスライスを簡単に視覚化する。
論文 参考訳(メタデータ) (2021-07-09T16:21:31Z) - TFApprox: Towards a Fast Emulation of DNN Approximate Hardware
Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。
DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。
このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2~3桁遅い。
論文 参考訳(メタデータ) (2020-02-21T08:22:56Z) - CSM-NN: Current Source Model Based Logic Circuit Simulation -- A Neural
Network Approach [5.365198933008246]
CSM-NNは、最適化されたニューラルネットワーク構造と処理アルゴリズムを備えたスケーラブルなシミュレーションフレームワークである。
実験によると、CSM-NNはCPU上で動作する最先端のソースモデルベースのシミュレータと比較して、シミュレーション時間を最大6倍に短縮する。
CSM-NNはまた、HSPICEと比較して2%以下の誤差で高い精度のレベルを提供する。
論文 参考訳(メタデータ) (2020-02-13T00:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。