論文の概要: Perturbation-efficient Zeroth-order Optimization for Hardware-friendly On-device Training
- arxiv url: http://arxiv.org/abs/2504.20314v1
- Date: Mon, 28 Apr 2025 23:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.696724
- Title: Perturbation-efficient Zeroth-order Optimization for Hardware-friendly On-device Training
- Title(参考訳): ハードウェアフレンドリーなオンデバイストレーニングのための摂動効率ゼロ階最適化
- Authors: Qitao Tan, Sung-En Chang, Rui Xia, Huidong Ji, Chence Yang, Ci Zhang, Jun Liu, Zheng Zhan, Zhou Zou, Yanzhi Wang, Jin Lu, Geng Yuan,
- Abstract要約: Zeroth-order(ZO)最適化は、計算の単純さとメモリ節約を提供する、新たなディープニューラルネットワーク(DNN)トレーニングパラダイムである。
ZOは相当数のガウス乱数を生成する必要があり、これはかなりの困難を伴い、FPGAやASICのようなハードウェアプラットフォームでは利用できない。
乱数生成の需要を大幅に削減する摂動効率のZOフレームワークであるPeZOを提案する。
実験の結果,PeZO は乱数生成に必要な LUT と FF を 48.6% と 12.7% に削減し,最大 86% の消費電力を削減できることがわかった。
- 参考スコア(独自算出の注目度): 48.13509528824236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO) optimization is an emerging deep neural network (DNN) training paradigm that offers computational simplicity and memory savings. However, this seemingly promising approach faces a significant and long-ignored challenge. ZO requires generating a substantial number of Gaussian random numbers, which poses significant difficulties and even makes it infeasible for hardware platforms, such as FPGAs and ASICs. In this paper, we identify this critical issue, which arises from the mismatch between algorithm and hardware designers. To address this issue, we proposed PeZO, a perturbation-efficient ZO framework. Specifically, we design random number reuse strategies to significantly reduce the demand for random number generation and introduce a hardware-friendly adaptive scaling method to replace the costly Gaussian distribution with a uniform distribution. Our experiments show that PeZO reduces the required LUTs and FFs for random number generation by 48.6\% and 12.7\%, and saves at maximum 86\% power consumption, all without compromising training performance, making ZO optimization feasible for on-device training. To the best of our knowledge, we are the first to explore the potential of on-device ZO optimization, providing valuable insights for future research.
- Abstract(参考訳): Zeroth-order(ZO)最適化は、計算の単純さとメモリ節約を提供する、新たなディープニューラルネットワーク(DNN)トレーニングパラダイムである。
しかし、この有望なアプローチは、重要かつ長年無視されてきた課題に直面しているようだ。
ZOは相当数のガウス乱数を生成する必要があり、これはかなりの困難を伴い、FPGAやASICのようなハードウェアプラットフォームでは利用できない。
本稿では,アルゴリズムとハードウェア設計者のミスマッチから生じる,この重要な問題を特定する。
この問題に対処するため,我々は摂動効率の高いZOフレームワークであるPeZOを提案した。
具体的には、乱数生成の需要を大幅に削減するために乱数再利用戦略を設計し、コストのかかるガウス分布を均一分布に置き換えるハードウェアフレンドリな適応スケーリング手法を導入する。
実験の結果,PeZO は乱数生成に必要な LUT と FF を 48.6 % と 12.7 % に削減し,最大 86 % の消費電力を削減できることがわかった。
我々の知る限り、私たちはデバイス上でのZO最適化の可能性を探究し、将来の研究に貴重な洞察を与えています。
関連論文リスト
- AI-Driven Optimization of Hardware Overlay Configurations [0.0]
本稿では,FPGAオーバレイ構成を最適化するAI駆動方式を提案する。
機械学習技術を活用することで、ハードウェアコンパイル前のさまざまな構成の実現可能性と効率を予測する。
論文 参考訳(メタデータ) (2025-03-08T22:34:47Z) - Sample-efficient Bayesian Optimisation Using Known Invariances [56.34916328814857]
バニラと制約付きBOアルゴリズムは、不変目的を最適化する際の非効率性を示す。
我々はこれらの不変カーネルの最大情報ゲインを導出する。
核融合炉用電流駆動システムの設計に本手法を用い, 高性能溶液の探索を行った。
論文 参考訳(メタデータ) (2024-10-22T12:51:46Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Random Aggregate Beamforming for Over-the-Air Federated Learning in Large-Scale Networks [66.18765335695414]
本稿では,アグリゲーションエラーを最小限に抑え,選択したデバイス数を最大化する目的で,共同装置の選択とアグリゲーションビームフォーミング設計について検討する。
コスト効率のよい方法でこの問題に取り組むために,ランダムな集合ビームフォーミング方式を提案する。
また, 得られた集計誤差と, デバイス数が大きい場合に選択したデバイス数についても解析を行った。
論文 参考訳(メタデータ) (2024-02-20T23:59:45Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Gradient Sparsification for Efficient Wireless Federated Learning with
Differential Privacy [25.763777765222358]
フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。
モデルのサイズが大きくなるにつれて、送信帯域の制限によるトレーニングのレイテンシが低下し、個人情報が劣化すると同時に、差分プライバシ(DP)保護を使用する。
我々は、収束性能を犠牲にすることなく、トレーニング効率を向上させるために、FLフレームワーク無線チャネルのスペース化を提案する。
論文 参考訳(メタデータ) (2023-04-09T05:21:15Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - ExPAN(N)D: Exploring Posits for Efficient Artificial Neural Network
Design in FPGA-based Systems [4.2612881037640085]
本稿では,ANNに対するポジット数表現方式の有効性と不動点演算の実装効率を解析し,比較する。
本稿では,ANNのための高性能かつ省エネなハードウェア実装を実現するための,新しい固定点変換器Posit to Fix-pointを提案する。
論文 参考訳(メタデータ) (2020-10-24T11:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。