論文の概要: Decentor-V: Lightweight ML Training on Low-Power RISC-V Edge Devices
- arxiv url: http://arxiv.org/abs/2509.18118v1
- Date: Wed, 10 Sep 2025 09:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.378805
- Title: Decentor-V: Lightweight ML Training on Low-Power RISC-V Edge Devices
- Title(参考訳): Decentor-V:低消費電力RISC-Vエッジデバイスを用いた軽量MLトレーニング
- Authors: Marcelo Ribeiro, Diogo Costa, Gonçalo Moreira, Sandro Pinto, Tiago Gomes,
- Abstract要約: 勾配降下の軽量な変種であるL-SGDは、Arm Cortex-M Microcontroller Units(MCUs)のニューラルネットワークトレーニングを可能にした
この作業はL-SGDをRISC-VベースのMCUに拡張する。
RISC-V用L-SGDの8ビット量子化バージョンを導入し,メモリ使用量の約4倍の削減を実現し,トレーニング時間の2.2倍の高速化を実現した。
- 参考スコア(独自算出の注目度): 2.2332974094443174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern IoT devices increasingly rely on machine learning solutions to process data locally. However, the lack of graphics processing units (GPUs) or dedicated accelerators on most platforms makes on-device training largely infeasible, often requiring cloud-based services to perform this task. This procedure often raises privacy-related concerns, and creates dependency on reliable and always-on connectivity. Federated Learning (FL) is a new trend that addresses these issues by enabling decentralized and collaborative training directly on devices, but it requires highly efficient optimization algorithms. L-SGD, a lightweight variant of stochastic gradient descent, has enabled neural network training on Arm Cortex-M Microcontroller Units (MCUs). This work extends L-SGD to RISC-V-based MCUs, an open and emerging architecture that still lacks robust support for on-device training. L-SGD was evaluated on both Arm and RISC-V platforms using 32-bit floating-point arithmetic, highlighting the performance impact of the absence of Floating-Point Units (FPUs) in RISC-V MCUs. To mitigate these limitations, we introduce an 8-bit quantized version of L-SGD for RISC-V, which achieves nearly 4x reduction in memory usage and a 2.2x speedup in training time, with negligible accuracy degradation.
- Abstract(参考訳): 現代のIoTデバイスは、データをローカルに処理するための機械学習ソリューションにますます依存している。
しかし、ほとんどのプラットフォームでグラフィックス処理ユニット(GPU)や専用アクセラレーターが欠如しているため、デバイス上でのトレーニングはほぼ不可能であり、クラウドベースのサービスでこのタスクを実行する必要がしばしばある。
この手順は、しばしばプライバシに関する懸念を提起し、信頼性と常時接続に依存する。
Federated Learning(FL)は、デバイス上で直接分散的かつ協調的なトレーニングを可能にすることによって、これらの問題に対処する新しいトレンドであるが、非常に効率的な最適化アルゴリズムが必要である。
確率勾配降下の軽量な変種であるL-SGDは、Arm Cortex-M Microcontroller Units (MCUs)でのニューラルネットワークトレーニングを可能にした。
この作業はL-SGDをRISC-VベースのMCUに拡張する。
L-SGDは32ビット浮動小数点演算を用いてArmとRISC-Vの両プラットフォームで評価され、RISC-V MCUにおける浮動小数点ユニット(FPU)の欠如による性能への影響を強調した。
これらの制限を緩和するため,RISC-V用L-SGDの8ビット量子化バージョンを導入し,メモリ使用量の約4倍の削減,トレーニング時間の2.2倍の高速化を実現した。
関連論文リスト
- On-Device Federated Continual Learning on RISC-V-based Ultra-Low-Power SoC for Intelligent Nano-Drone Swarms [12.296600495357843]
顔認識タスクを行う複数のナノドローンに適した,正規化に基づくオンデバイスフェデレーション連続学習アルゴリズムを提案する。
分類精度を24%向上させ, 局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地
論文 参考訳(メタデータ) (2025-03-21T15:53:57Z) - USEFUSE: Uniform Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。
有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。
ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文 参考訳(メタデータ) (2024-12-18T11:04:58Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。
過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。
データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-07T20:15:39Z) - Perun: Secure Multi-Stakeholder Machine Learning Framework with GPU
Support [1.5362025549031049]
Perunは機密のマルチステークホルダ機械学習のためのフレームワークである。
ハードウェアアクセラレータ(GPUなど)上でMLトレーニングを実行し、セキュリティ保証を提供する。
CIFAR-10と現実世界の医療データセットのMLトレーニング中に、Perunは161倍から1560倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2021-03-31T08:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。