Fugu-MT 論文翻訳(概要): VW-SDK: Efficient Convolutional Weight Mapping Using Variable Windows for Processing-In-Memory Architectures

論文の概要: VW-SDK: Efficient Convolutional Weight Mapping Using Variable Windows for Processing-In-Memory Architectures

arxiv url: http://arxiv.org/abs/2112.11282v1
Date: Tue, 21 Dec 2021 15:10:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-22 15:38:17.792681
Title: VW-SDK: Efficient Convolutional Weight Mapping Using Variable Windows for Processing-In-Memory Architectures
Title（参考訳）: VW-SDK: メモリ内アーキテクチャ処理に可変ウィンドウを用いた効率的な畳み込み重みマッピング
Authors: Johnny Rhe, Sungmin Moon, and Jong Hwan Ko
Abstract要約: 可変ウィンドウSDK(VW-SDK)と呼ばれる新しいマッピングアルゴリズムを提案する。 VW-SDKは、所定の畳み込み層とPIMアレイの最小計算サイクルにつながる並列ウィンドウの形状を適応的に決定する。 512x512 PIMアレイとResnet-18によるシミュレーションでは、既存のSDKベースのアルゴリズムと比較して、VW-SDKは推論速度を1.69倍改善している。
参考スコア（独自算出の注目度）: 3.1996035949428046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With their high energy efficiency, processing-in-memory (PIM) arrays are increasingly used for convolutional neural network (CNN) inference. In PIM-based CNN inference, the computational latency and energy are dependent on how the CNN weights are mapped to the PIM array. A recent study proposed shifted and duplicated kernel (SDK) mapping that reuses the input feature maps with a unit of a parallel window, which is convolved with duplicated kernels to obtain multiple output elements in parallel. However, the existing SDK-based mapping algorithm does not always result in the minimum computing cycles because it only maps a square-shaped parallel window with the entire channels. In this paper, we introduce a novel mapping algorithm called variable-window SDK (VW-SDK), which adaptively determines the shape of the parallel window that leads to the minimum computing cycles for a given convolutional layer and PIM array. By allowing rectangular-shaped windows with partial channels, VW-SDK utilizes the PIM array more efficiently, thereby further reduces the number of computing cycles. The simulation with a 512x512 PIM array and Resnet-18 shows that VW-SDK improves the inference speed by 1.69x compared to the existing SDK-based algorithm.
Abstract（参考訳）: 高エネルギー効率で処理インメモリ(PIM)アレイは畳み込みニューラルネットワーク(CNN)推論にますます利用されている。 PIMに基づくCNN推論では、計算遅延とエネルギーは、CNNの重みがPIMアレイにどのようにマッピングされるかに依存する。最近の研究では、複数の出力要素を並列に取得するために、重複したカーネルと結合した並列ウィンドウのユニットで入力特徴写像を再利用するシフトカーネル(SDK)マッピングが提案されている。しかし、既存のsdkベースのマッピングアルゴリズムは、チャネル全体に対して正方形の並列ウィンドウのみをマップするため、最小の計算サイクルを必ずしも実現しない。本稿では,変数ウィンドウSDK (VW-SDK) と呼ばれる新しいマッピングアルゴリズムを提案する。これは並列ウィンドウの形状を適応的に決定し,与えられた畳み込み層とPIMアレイの最小計算サイクルを導出する。部分チャネルを持つ矩形ウィンドウを許すことで、VW-SDKはPIMアレイをより効率的に利用し、計算サイクルの数を減らした。 512x512 PIMアレイとResnet-18によるシミュレーションでは、既存のSDKベースのアルゴリズムと比較して、VW-SDKは推論速度を1.69倍改善している。

関連論文リスト

MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data Capacity of SRAM-based Processing-In-Memory [6.367916611208411]
等価データ容量を効果的に2倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるDDC-PIMを提案する。 DDC-PIMはMobileNetV2で約2.84タイム、EfficientNet-B0で約2.69タイム、精度の損失は無視できる。最先端のマクロと比較して、DDC-PIMは重量密度と面積効率をそれぞれ最大8.41タイムと2.75タイムに改善する。
論文参考訳（メタデータ） (2023-10-31T12:49:54Z)
DC-Net: Divide-and-Conquer for Salient Object Detection [9.565256082366922]
そこで本研究では,Divide-and-ConquerをSalient Object Detection (SOD)タスクに導入し,Saliency Mapを予測するための事前知識をモデルが学習できるようにする。我々は,2つのエンコーダを用いて,最終的なサリエンシマップを予測するための異なるサブタスクを解く新しいネットワークであるDivide-and-Conquer Network(DC-Net)を設計する。
論文参考訳（メタデータ） (2023-05-24T09:49:25Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文参考訳（メタデータ） (2022-01-02T18:35:20Z)
DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文参考訳（メタデータ） (2021-09-21T09:57:21Z)
High Performance Convolution Using Sparsity and Patterns for Inference in Deep Convolutional Neural Networks [8.401007663676216]
本稿では、圧縮パターンオーバーラップ(CPO)と圧縮パターンセット(CPS)と呼ばれる2つの新しい畳み込みアルゴリズムを提案する。 CPOとCPSは同時にメモリフットプリントを減少させ、精度を維持しながら推論速度を向上する。 cnnの推論では、各畳み込み層に対して、cpoまたはcps im2col間の推論時間の観点から最良畳み込みアルゴリズムをオフラインで選択する。
論文参考訳（メタデータ） (2021-04-16T18:55:32Z)
Parareal Neural Networks Emulating a Parallel-in-time Algorithm [1.988145627448243]
ディープニューラルネットワーク(DNN)が深まるにつれて、トレーニング時間が増加する。本稿では,並列ニューラルネットワークを構築するための新しい手法を提案する。
論文参考訳（メタデータ） (2021-03-16T02:03:39Z)
I/O Lower Bounds for Auto-tuning of Convolutions in CNNs [2.571796445061562]
本研究では,複数のサブ計算からなる合成アルゴリズムの一般i/o下界理論を考案する。我々は,データ再利用を十分に活用することにより,2つの主畳み込みアルゴリズムの近似i/o最適データフロー戦略を設計する。実験結果から,自動チューニング方式によるデータフロー戦略は,cuDNNよりも平均約3.32倍の性能向上を達成できることがわかった。
論文参考訳（メタデータ） (2020-12-31T15:46:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。