論文の概要: Arithmetic Intensity Balancing Convolution for Hardware-aware Efficient
Block Design
- arxiv url: http://arxiv.org/abs/2304.04016v1
- Date: Sat, 8 Apr 2023 14:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:15:56.152645
- Title: Arithmetic Intensity Balancing Convolution for Hardware-aware Efficient
Block Design
- Title(参考訳): ハードウェアアウェアの効率的なブロック設計のための算術インテンシティバランス畳み込み
- Authors: Shinkook Choi, Junkyeong Choi
- Abstract要約: 空間サイズが小さい畳み込みのための小重量演算強度によって制限される全体強度の問題に対処する算術強度バランス・コンボリューション(ABConv)を提案する。
ABConvは算術的強度の最大値を増やし、精度を犠牲にすることなくレイテンシを大幅に削減した。
我々は,Arm Ethos-U65 NPUにおけるABConvのレイテンシとハードウェア性能を,様々な構成で検証した。
- 参考スコア(独自算出の注目度): 0.974672460306765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning advances, edge devices and lightweight neural networks are
becoming more important. To reduce latency in the AI accelerator, it's
essential to not only reduce FLOPs but also enhance hardware performance. We
proposed an arithmetic intensity balancing convolution (ABConv) to address the
issue of the overall intensity being limited by the small weight arithmetic
intensity for convolution with a small spatial size. ABConv increased the
maximum bound of overall arithmetic intensity and significantly reduced
latency, without sacrificing accuracy. We tested the latency and hardware
performance of ABConv on the Arm Ethos-U65 NPU in various configurations and
used it to replace some of MobileNetV1 and ResNet50 in image classification for
CIFAR100.
- Abstract(参考訳): ディープラーニングが進むにつれ、エッジデバイスと軽量ニューラルネットワークの重要性が高まっている。
AIアクセラレータのレイテンシを低減するためには、FLOPの削減だけでなく、ハードウェアパフォーマンスの向上も不可欠だ。
計算強度バランス畳み込み (abconv) を提案し, 空間サイズが小さい畳み込みに対して, 計算強度が小重量の算術強度によって制限される問題に対処する。
ABConvは算術的強度の最大値を増やし、精度を犠牲にすることなくレイテンシを大幅に削減した。
我々は、Arm Ethos-U65 NPU上でABConvのレイテンシとハードウェア性能を様々な構成でテストし、CIFAR100の画像分類においてMobileNetV1とResNet50の一部を置き換えた。
関連論文リスト
- SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。
既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。
本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文 参考訳(メタデータ) (2024-11-05T06:59:02Z) - Dynamic Range Reduction via Branch-and-Bound [1.533133219129073]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。
本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。
実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-17T03:07:56Z) - TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators [11.496631244103773]
Tiny Shared Block (TSB)"は、小さな共有1x1畳み込みブロックをDeep Neural Networkアーキテクチャに統合する。
TSBは、20倍以上の推論精度ギャップの改善、5倍以上のトレーニングスピードアップ、デバイス間マッピングコストの削減を実現している。
論文 参考訳(メタデータ) (2024-05-08T20:53:38Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Latency-aware Spatial-wise Dynamic Networks [33.88843632160247]
深層ネットワークのための遅延認識型空間的動的ネットワーク(LASNet)を提案する。
LASNetは、新しい遅延予測モデルのガイダンスに基づき、粗粒度空間適応推論を行う。
画像分類,オブジェクト検出,インスタンスセグメンテーションの実験により,提案手法はディープネットワークの実用的な推論効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2022-10-12T14:09:27Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。