論文の概要: 3U-EdgeAI: Ultra-Low Memory Training, Ultra-Low BitwidthQuantization,
and Ultra-Low Latency Acceleration
- arxiv url: http://arxiv.org/abs/2105.06250v1
- Date: Tue, 11 May 2021 03:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 04:41:09.727123
- Title: 3U-EdgeAI: Ultra-Low Memory Training, Ultra-Low BitwidthQuantization,
and Ultra-Low Latency Acceleration
- Title(参考訳): 3U-EdgeAI:ウルトラローメモリトレーニング、ウルトラロービット幅量子化、ウルトラローレイテンシ高速化
- Authors: Yao Chen, Cole Hawkins, Kaiqi Zhang, Zheng Zhang, Cong Hao
- Abstract要約: エッジ上のディープニューラルネットワーク(DNN)ベースのAIアプリケーションは、低コストのコンピューティングプラットフォームと高品質なサービスの両方を必要とする。
本稿では、トレーニング、量子化、加速器設計の重要性を強調し、エッジ上のAI分野におけるさらなる研究のブレークスルーを求める。
- 参考スコア(独自算出の注目度): 8.419854797930668
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The deep neural network (DNN) based AI applications on the edge require both
low-cost computing platforms and high-quality services. However, the limited
memory, computing resources, and power budget of the edge devices constrain the
effectiveness of the DNN algorithms. Developing edge-oriented AI algorithms and
implementations (e.g., accelerators) is challenging. In this paper, we
summarize our recent efforts for efficient on-device AI development from three
aspects, including both training and inference. First, we present on-device
training with ultra-low memory usage. We propose a novel rank-adaptive
tensor-based tensorized neural network model, which offers orders-of-magnitude
memory reduction during training. Second, we introduce an ultra-low bitwidth
quantization method for DNN model compression, achieving the state-of-the-art
accuracy under the same compression ratio. Third, we introduce an ultra-low
latency DNN accelerator design, practicing the software/hardware co-design
methodology. This paper emphasizes the importance and efficacy of training,
quantization and accelerator design, and calls for more research breakthroughs
in the area for AI on the edge.
- Abstract(参考訳): エッジ上のディープニューラルネットワーク(DNN)ベースのAIアプリケーションは、低コストのコンピューティングプラットフォームと高品質なサービスの両方を必要とする。
しかし、エッジデバイスのメモリ、コンピューティングリソース、電力予算の制限により、DNNアルゴリズムの有効性は制限される。
エッジ指向のAIアルゴリズムと実装(例えばアクセラレータ)の開発は難しい。
本稿では、トレーニングと推論の両方を含む3つの側面から、効率的なオンデバイスai開発に向けた最近の取り組みを要約する。
まず,メモリ使用量の低いデバイス上でのトレーニングについて述べる。
そこで本研究では,トレーニング中のオーダー・オブ・マグニチュード・メモリ削減を実現する,ランク適応型テンソル型テンソル型ニューラルネットワークモデルを提案する。
第二に、DNNモデル圧縮のための超低ビット幅量子化法を導入し、同じ圧縮比で最先端の精度を実現する。
第3に,ソフトウェア/ハードウェア共同設計手法を実践する超低レイテンシdnnアクセラレータ設計を導入する。
本稿では、トレーニング、量子化、加速器設計の重要性と有効性を強調し、エッジ上のAI分野におけるさらなる研究のブレークスルーを求める。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Energy-Efficient Deployment of Machine Learning Workloads on
Neuromorphic Hardware [0.11744028458220425]
ディープラーニングハードウェアアクセラレータがいくつかリリースされ、ディープニューラルネットワーク(DNN)が消費する電力と面積の削減に特化している。
個別の時系列データで動作するスパイクニューラルネットワーク(SNN)は、特殊なニューロモルフィックイベントベース/非同期ハードウェアにデプロイすると、大幅な電力削減を実現することが示されている。
本研究では,事前学習したDNNをSNNに変換するための一般的なガイドを提供するとともに,ニューロモルフィックハードウェア上でのSNNの展開を改善するためのテクニックも提示する。
論文 参考訳(メタデータ) (2022-10-10T20:27:19Z) - Designing and Training of Lightweight Neural Networks on Edge Devices
using Early Halting in Knowledge Distillation [16.74710649245842]
本稿では,エッジデバイス上での軽量ディープニューラルネットワーク(DNN)の設計と訓練のための新しいアプローチを提案する。
このアプローチでは、利用可能なストレージ、処理速度、許容可能な最大処理時間を考慮する。
本稿では,ネットワーク資源を保存できる新しい早期停止手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T16:18:24Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - L2ight: Enabling On-Chip Learning for Optical Neural Networks via
Efficient in-situ Subspace Optimization [10.005026783940682]
シリコンフォトニクスベースの光ニューラルネットワーク(ONN)は、効率的なAIのパラダイムシフトを示す可能性のある、有望なハードウェアプラットフォームである。
そこで本研究では,スケーラブルなONNマッピングと効率的なin-situ学習を実現するための,閉ループONNオンチップ学習フレームワークL2ightを提案する。
論文 参考訳(メタデータ) (2021-10-27T22:53:47Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Dynamic Hard Pruning of Neural Networks at the Edge of the Internet [11.605253906375424]
動的ハードプルーニング(DynHP)技術は、トレーニング中にネットワークを段階的にプルーニングする。
DynHPは、最終ニューラルネットワークの調整可能なサイズ削減と、トレーニング中のNNメモリ占有率の削減を可能にする。
凍結メモリは、ハードプルーニング戦略による精度劣化を相殺するために、エンファンダイナミックバッチサイズアプローチによって再利用される。
論文 参考訳(メタデータ) (2020-11-17T10:23:28Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。