論文の概要: Dynamic Tsetlin Machine Accelerators for On-Chip Training at the Edge using FPGAs
- arxiv url: http://arxiv.org/abs/2504.19797v1
- Date: Mon, 28 Apr 2025 13:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.452556
- Title: Dynamic Tsetlin Machine Accelerators for On-Chip Training at the Edge using FPGAs
- Title(参考訳): FPGAを用いたエッジにおけるオンチップトレーニングのための動的Tsetlinマシン加速器
- Authors: Gang Mao, Tousif Rahman, Sidharth Maheshwari, Bob Pattison, Zhuang Shao, Rishad Shafik, Alex Yakovlev,
- Abstract要約: 本稿では,Deep Neural Networks (DNN) の代替として,動的Tsetlin Machine (DTM) トレーニングアクセラレータを提案する。
DTMは、より少ない乗算累積で微分計算を欠いた訓練を行う。
提案された加速器は、Watt毎の毎秒2.54倍のギガ演算(GOP/s/W)を提供し、次の同等の設計よりも6倍少ない電力を使用する。
- 参考スコア(独自算出の注目度): 0.3440236962613469
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increased demand for data privacy and security in machine learning (ML) applications has put impetus on effective edge training on Internet-of-Things (IoT) nodes. Edge training aims to leverage speed, energy efficiency and adaptability within the resource constraints of the nodes. Deploying and training Deep Neural Networks (DNNs)-based models at the edge, although accurate, posit significant challenges from the back-propagation algorithm's complexity, bit precision trade-offs, and heterogeneity of DNN layers. This paper presents a Dynamic Tsetlin Machine (DTM) training accelerator as an alternative to DNN implementations. DTM utilizes logic-based on-chip inference with finite-state automata-driven learning within the same Field Programmable Gate Array (FPGA) package. Underpinned on the Vanilla and Coalesced Tsetlin Machine algorithms, the dynamic aspect of the accelerator design allows for a run-time reconfiguration targeting different datasets, model architectures, and model sizes without resynthesis. This makes the DTM suitable for targeting multivariate sensor-based edge tasks. Compared to DNNs, DTM trains with fewer multiply-accumulates, devoid of derivative computation. It is a data-centric ML algorithm that learns by aligning Tsetlin automata with input data to form logical propositions enabling efficient Look-up-Table (LUT) mapping and frugal Block RAM usage in FPGA training implementations. The proposed accelerator offers 2.54x more Giga operations per second per Watt (GOP/s per W) and uses 6x less power than the next-best comparable design.
- Abstract(参考訳): 機械学習(ML)アプリケーションにおけるデータプライバシとセキュリティの需要の増加により、IoT(Internet-of-Things)ノード上での効果的なエッジトレーニングが重要になった。
エッジトレーニングは、ノードのリソース制約内での速度、エネルギー効率、適応性を活用することを目的としている。
エッジにディープニューラルネットワーク(DNN)ベースのモデルをデプロイし、トレーニングするが、バックプロパゲーションアルゴリズムの複雑さ、ビット精度のトレードオフ、DNN層の異質性といった重要な課題は正確である。
本稿では,DNN 実装の代替として Dynamic Tsetlin Machine (DTM) トレーニングアクセラレータを提案する。
DTMは、論理ベースのオンチップ推論と有限状態オートマタ駆動学習を、同じフィールドプログラマブルゲートアレイ(FPGA)パッケージ内で利用する。
VanillaとCoalesced Tsetlin Machineアルゴリズムを基盤として、アクセル設計の動的な側面は、異なるデータセット、モデルアーキテクチャ、再合成なしでモデルサイズをターゲットとした実行時の再構成を可能にする。
これにより、DTMは多変量センサーベースのエッジタスクをターゲットにするのに適している。
DNNと比較して、DTMはより少ない乗算積を持つ列車であり、微分計算を欠いている。
これはデータ中心のMLアルゴリズムで、Tsetlin Automaticaを入力データと整列して論理命題を形成することで学習し、FPGAトレーニング実装における効率的なLook-up-Table(LUT)マッピングとFragal Block RAMの使用を可能にする。
提案された加速器は、Watt毎の毎秒2.54倍のギガ演算(GOP/s/W)を提供し、次の同等の設計よりも6倍少ない電力を使用する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文 参考訳(メタデータ) (2023-09-22T17:26:19Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - DNN Training Acceleration via Exploring GPGPU Friendly Sparsity [16.406482603838157]
本稿では、従来のランダムなニューロンやシナプスのドロップアウトを、通常のオンラインの行ベースもしくはタイルベースのドロップアウトパターンに置き換える近似ランダムドロップアウトを提案する。
次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。
また,入力特徴図をその感度に基づいて動的にドロップアウトし,前向きおよび後向きのトレーニングアクセラレーションを実現するための感度対応ドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T01:32:03Z) - EF-Train: Enable Efficient On-device CNN Training on FPGA Through Data
Reshaping for Online Adaptation or Personalization [11.44696439060875]
EF-Trainは、チャネルレベルの並列性に基づく畳み込みカーネルを統一した、効率的なDNNトレーニングアクセラレータである。
リソース制限された低消費電力エッジレベルFPGAのエンドツーエンドトレーニングを実現することができる。
我々の設計ではスループットとエネルギー効率の点で46.99GFLOPSと6.09GFLOPS/Wを実現している。
論文 参考訳(メタデータ) (2022-02-18T18:27:42Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - A New MRAM-based Process In-Memory Accelerator for Efficient Neural
Network Training with Floating Point Precision [28.458719513745812]
本研究では、浮動小数点精度をサポートしたスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)を用いたデジタルPIM加速器を提案する。
実験の結果,提案したSOT-MRAM PIMベースのDNNトレーニングアクセラレータは3.3$times$,1.8$times$,2.5$times$をエネルギー,遅延,面積の面で改善できることがわかった。
論文 参考訳(メタデータ) (2020-03-02T04:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。