論文の概要: CODEBench: A Neural Architecture and Hardware Accelerator Co-Design
Framework
- arxiv url: http://arxiv.org/abs/2212.03965v1
- Date: Wed, 7 Dec 2022 21:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:45:27.696877
- Title: CODEBench: A Neural Architecture and Hardware Accelerator Co-Design
Framework
- Title(参考訳): codebench: ニューラルネットワークアーキテクチャとハードウェアアクセラレーションの共同設計フレームワーク
- Authors: Shikhar Tuli, Chia-Hao Li, Ritvik Sharma, Niraj K. Jha
- Abstract要約: この研究は、CODEBenchと呼ばれる新しいニューラルアーキテクチャとハードウェアアクセラレーターの共同設計フレームワークを提案する。
CNNBenchとAccelBenchという2つの新しいベンチマークサブフレームワークで構成されており、畳み込みニューラルネットワーク(CNN)とCNNアクセラレーターの拡張設計空間を探索している。
- 参考スコア(独自算出の注目度): 4.5259990830344075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, automated co-design of machine learning (ML) models and accelerator
architectures has attracted significant attention from both the industry and
academia. However, most co-design frameworks either explore a limited search
space or employ suboptimal exploration techniques for simultaneous design
decision investigations of the ML model and the accelerator. Furthermore,
training the ML model and simulating the accelerator performance is
computationally expensive. To address these limitations, this work proposes a
novel neural architecture and hardware accelerator co-design framework, called
CODEBench. It is composed of two new benchmarking sub-frameworks, CNNBench and
AccelBench, which explore expanded design spaces of convolutional neural
networks (CNNs) and CNN accelerators. CNNBench leverages an advanced search
technique, BOSHNAS, to efficiently train a neural heteroscedastic surrogate
model to converge to an optimal CNN architecture by employing second-order
gradients. AccelBench performs cycle-accurate simulations for a diverse set of
accelerator architectures in a vast design space. With the proposed co-design
method, called BOSHCODE, our best CNN-accelerator pair achieves 1.4% higher
accuracy on the CIFAR-10 dataset compared to the state-of-the-art pair, while
enabling 59.1% lower latency and 60.8% lower energy consumption. On the
ImageNet dataset, it achieves 3.7% higher Top1 accuracy at 43.8% lower latency
and 11.2% lower energy consumption. CODEBench outperforms the state-of-the-art
framework, i.e., Auto-NBA, by achieving 1.5% higher accuracy and 34.7x higher
throughput, while enabling 11.0x lower energy-delay product (EDP) and 4.0x
lower chip area on CIFAR-10.
- Abstract(参考訳): 近年、機械学習(ML)モデルとアクセラレーターアーキテクチャの自動設計は、業界と学術の両方から大きな注目を集めている。
しかし、ほとんどの共同設計フレームワークは、限られた検索空間を探索するか、MLモデルとアクセラレータの同時設計決定調査に最適化された探索技術を採用する。
さらに、MLモデルをトレーニングし、加速器の性能をシミュレートするのは計算コストが高い。
これらの制限に対処するため、この研究はCODEBenchと呼ばれる新しいニューラルアーキテクチャとハードウェアアクセラレーターの共同設計フレームワークを提案する。
CNNBenchとAccelBenchという2つの新しいベンチマークサブフレームワークで構成されており、畳み込みニューラルネットワーク(CNN)とCNNアクセラレーターの拡張設計空間を探索している。
CNNBenchは、高度探索技術BOSHNASを活用して、二階勾配を用いて最適なCNNアーキテクチャに収束するために、ニューラルネットワークヘテロセダスティックサロゲートモデルを効率的に訓練する。
accelbenchは、幅広いデザイン空間における様々なアクセラレーターアーキテクチャのサイクル正確なシミュレーションを行う。
提案手法であるboshcodeにより,cnn-acceleratorペアは最先端のデータセットよりも1.4%高い精度を実現し,59.1%のレイテンシと60.8%の消費電力を実現している。
ImageNetデータセットでは、Top1の精度が43.8%、エネルギー消費11.2%で3.7%向上している。
CODEBenchは1.5%の精度と34.7倍のスループットを実現し、CIFAR-10では11.0倍の低エネルギー遅延製品(EDP)と4.0倍の低いチップ領域を実現している。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection [0.0]
FLOPに基づく効率的な物体検出のためのニューラルネットワークアーキテクチャの設計選択に着目する。
そこで本研究では,YOLOモデルの有効性を高めるために,いくつかの最適化手法を提案する。
本稿では、オブジェクト検出のための新しいスケーリングパラダイムと、LeYOLOと呼ばれるYOLO中心のモデルに寄与する。
論文 参考訳(メタデータ) (2024-06-20T12:08:24Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - NAAS: Neural Accelerator Architecture Search [16.934625310654553]
本稿では,ニューラルネットワークアーキテクチャ,アクセラレーションアーキテクチャ,コンパイラマッピングを全体検索するためのNAAS(Neural Accelerator Architecture Search)を提案する。
データ駆動のアプローチとして、NAASは人間のデザインであるEyerissを4.4倍のEDP削減、ImageNetの精度2.7%改善した。
論文 参考訳(メタデータ) (2021-05-27T15:56:41Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - Best of Both Worlds: AutoML Codesign of a CNN and its Hardware
Accelerator [21.765796576990137]
我々は、CNNモデルとHWアクセラレータの両方からのパラメータを含めることで、NASを用いてHW-CNN符号を自動生成する。
精度と効率を向上する最高のモデル加速器ペアを共同で探す。
論文 参考訳(メタデータ) (2020-02-11T10:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。