論文の概要: TinyCL: An Efficient Hardware Architecture for Continual Learning on
Autonomous Systems
- arxiv url: http://arxiv.org/abs/2402.09780v1
- Date: Thu, 15 Feb 2024 08:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:27:55.423652
- Title: TinyCL: An Efficient Hardware Architecture for Continual Learning on
Autonomous Systems
- Title(参考訳): TinyCL: 自律システムにおける継続的な学習のための効率的なハードウェアアーキテクチャ
- Authors: Eugenio Ressa and Alberto Marchisio and Maurizio Martina and Guido
Masera and Muhammad Shafique
- Abstract要約: 資源制約された自律システム上で連続学習を行うためのハードウェアアーキテクチャであるTinyCLを提案する。
TinyCLは、前方と後方の両方の伝搬を実行する処理ユニットと、メモリベースのCLワークロードを管理する制御ユニットで構成される。
我々の知る限り、提案したTinyCLは、自律システム上でCLを実行する最初のハードウェアアクセラレータである。
- 参考スコア(独自算出の注目度): 6.426547727552205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Continuous Learning (CL) paradigm consists of continuously evolving the
parameters of the Deep Neural Network (DNN) model to progressively learn to
perform new tasks without reducing the performance on previous tasks, i.e.,
avoiding the so-called catastrophic forgetting. However, the DNN parameter
update in CL-based autonomous systems is extremely resource-hungry. The
existing DNN accelerators cannot be directly employed in CL because they only
support the execution of the forward propagation. Only a few prior
architectures execute the backpropagation and weight update, but they lack the
control and management for CL. Towards this, we design a hardware architecture,
TinyCL, to perform CL on resource-constrained autonomous systems. It consists
of a processing unit that executes both forward and backward propagation, and a
control unit that manages memory-based CL workload. To minimize the memory
accesses, the sliding window of the convolutional layer moves in a snake-like
fashion. Moreover, the Multiply-and-Accumulate units can be reconfigured at
runtime to execute different operations. As per our knowledge, our proposed
TinyCL represents the first hardware accelerator that executes CL on autonomous
systems. We synthesize the complete TinyCL architecture in a 65 nm CMOS
technology node with the conventional ASIC design flow. It executes 1 epoch of
training on a Conv + ReLU + Dense model on the CIFAR10 dataset in 1.76 s, while
1 training epoch of the same model using an Nvidia Tesla P100 GPU takes 103 s,
thus achieving a 58 x speedup, consuming 86 mW in a 4.74 mm2 die.
- Abstract(参考訳): 継続的学習(CL)パラダイムは、Deep Neural Network(DNN)モデルのパラメータを継続的に進化させ、従来のタスクのパフォーマンスを低下させることなく、段階的に新しいタスクを実行することを学習する。
しかし、CLベースの自律システムにおけるDNNパラメータの更新は非常に資源不足である。
既存のDNNアクセラレータは、前方伝播の実行のみをサポートするため、直接CLに採用することはできない。
バックプロパゲーションとウェイトアップデートを実行する以前のアーキテクチャはわずかだが、CLのコントロールと管理が不足している。
そこで我々は,リソース制約された自律システム上でCLを実行するハードウェアアーキテクチャであるTinyCLを設計する。
前処理と後処理の両方を実行する処理ユニットと、メモリベースのCLワークロードを管理する制御ユニットで構成される。
メモリアクセスを最小限にするため、畳み込み層のスライドウインドウは蛇のように移動する。
さらに、複数の累積ユニットを実行時に再構成して異なる操作を実行することもできる。
我々の知る限り、提案したTinyCLは、自律システム上でCLを実行する最初のハードウェアアクセラレータである。
我々は65nmのCMOS技術ノードでTinyCLアーキテクチャを合成し、従来のASIC設計フローと組み合わせた。
CIFAR10データセット上で1.76秒でConv + ReLU + Denseモデルのトレーニングを1周する一方、Nvidia Tesla P100 GPUを使用した同じモデルのトレーニングエポックは103秒を要し、58倍のスピードアップを実現し、4.74mm2ダイで86mWを消費する。
関連論文リスト
- Slowing Down Forgetting in Continual Learning [20.57872238271025]
継続的学習(CL)における一般的な課題は、新しいタスクが学習された後に古いタスクのパフォーマンスが落ちることを忘れることである。
本稿では,ReCLと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-11T12:19:28Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - On-Device Learning with Binary Neural Networks [2.7040098749051635]
我々は、最近のCL分野の進歩とBNN(Binary Neural Networks)の効率を取り入れたCLソリューションを提案する。
バックボーンとしてのバイナリネットワークの選択は、低消費電力デバイスの制約を満たすために不可欠である。
論文 参考訳(メタデータ) (2023-08-29T13:48:35Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - Computationally Budgeted Continual Learning: What Does Matter? [128.0827987414154]
CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布の異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。
現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約は課されていない。
本稿では,この問題を大規模ベンチマークで再検討し,計算制約条件下での従来のCL手法の性能解析を行う。
論文 参考訳(メタデータ) (2023-03-20T14:50:27Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Which scaling rule applies to Artificial Neural Networks [0.0]
分離された単一プロセッサからなる協調・通信コンピューティングシステムには、厳しい性能制限があることを示す。
この論文は、フォン・ノイマンのオリジナルのモデルから始まり、処理時間とは別に転送時間を無視することなく、アムダールの法則の適切な解釈と扱いを導出する。
論文 参考訳(メタデータ) (2020-05-15T19:52:55Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。