論文の概要: Multiplierless MP-Kernel Machine For Energy-efficient Edge Devices
- arxiv url: http://arxiv.org/abs/2106.01958v1
- Date: Thu, 3 Jun 2021 16:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 18:09:24.171901
- Title: Multiplierless MP-Kernel Machine For Energy-efficient Edge Devices
- Title(参考訳): 省エネエッジデバイス用マルチプライアレスMPカーネルマシン
- Authors: Abhishek Ramdas Nair, Pallab Kumar Nath, Shantanu Chakrabartty, Chetan
Singh Thakur
- Abstract要約: マルチプライアレスカーネルマシンを設計するための新しいフレームワークを提案する。
このフレームワークは、マージン伝播(MP)技術に基づいて、ピースワイズ線形(PWL)近似を使用する。
本研究では,FPGA(Field Programmable Gate Array)プラットフォーム向けに最適化されたハードウェアフレンドリーなMPベースの推論とオンライントレーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.335302509003343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel framework for designing multiplierless kernel machines
that can be used on resource-constrained platforms like intelligent edge
devices. The framework uses a piecewise linear (PWL) approximation based on a
margin propagation (MP) technique and uses only addition/subtraction, shift,
comparison, and register underflow/overflow operations. We propose a
hardware-friendly MP-based inference and online training algorithm that has
been optimized for a Field Programmable Gate Array (FPGA) platform. Our FPGA
implementation eliminates the need for DSP units and reduces the number of
LUTs. By reusing the same hardware for inference and training, we show that the
platform can overcome classification errors and local minima artifacts that
result from the MP approximation. Using the FPGA platform, we also show that
the proposed multiplierless MP-kernel machine demonstrates superior performance
in terms of power, performance, and area compared to other comparable
implementations.
- Abstract(参考訳): 本稿では、知的エッジデバイスのようなリソース制約のあるプラットフォームで使用できるマルチプライアレスカーネルマシンを設計するための新しいフレームワークを提案する。
このフレームワークは、マージン伝播(MP)技術に基づく断片線形(PWL)近似を使用し、追加/サブトラクション、シフト、比較、アンダーフロー/オーバーフロー操作のレジスタのみを使用する。
fpga(field programmable gate array)プラットフォームに最適化した,ハードウェアフレンドリなmpベース推論とオンライントレーニングアルゴリズムを提案する。
我々のFPGA実装は、DSPユニットの必要性を排除し、LUTの数を削減します。
推論とトレーニングのために同じハードウェアを再利用することにより,MP近似による分類誤差や局所的なミニマアーティファクトを克服できることを示す。
またFPGAプラットフォームを用いて,提案したマルチプライアレスMPカーネルマシンは,他の実装と比較して性能,性能,面積の面で優れていることを示す。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Multiplierless In-filter Computing for tinyML Platforms [6.878219199575747]
In-filter音響分類のための新しいマルチプライヤレスフレームワークを提案する。
我々は、近似誤差を緩和するバックプロパゲーションを含む、MPベースの近似をトレーニングに用いている。
このフレームワークは、1Kスライス未満の従来の分類フレームワークよりも効率的である。
論文 参考訳(メタデータ) (2023-04-24T04:33:44Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Resource-constrained FPGA Design for Satellite Component Feature
Extraction [0.0]
本研究では,資源制約付きFPGA上に展開可能なニューラルネットワークに基づく物体検出アルゴリズムを提案する。
ハードウェア・イン・ザ・ループの実験はフロリダ工科大学のORION Maneuver Kinematics Simulatorで行われた。
その結果、FPGAの実装によりスループットが向上し、同等の精度を維持しながらレイテンシが低下することがわかった。
論文 参考訳(メタデータ) (2023-01-22T04:49:04Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Open-source FPGA-ML codesign for the MLPerf Tiny Benchmark [11.575901540758574]
我々は,フィールドプログラマブルゲートアレイ(FPGA)プラットフォーム上でのTiny Inference Benchmarkの開発経験を示す。
我々は、FPGA上で最適化されたニューラルネットワークのAIハードウェアコーデックを民主化することを目的として、オープンソースのhls4mlとFINN perJを使用している。
ソリューションはシステムオンチップ(Pynq-Z2)と純粋なFPGA(Arty A7-100T)プラットフォームにデプロイされる。
論文 参考訳(メタデータ) (2022-06-23T15:57:17Z) - A Deep Learning Inference Scheme Based on Pipelined Matrix
Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。
その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-10T17:31:27Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。