論文の概要: Accelerated Training on Low-Power Edge Devices
- arxiv url: http://arxiv.org/abs/2502.18323v1
- Date: Tue, 25 Feb 2025 16:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 17:42:46.145372
- Title: Accelerated Training on Low-Power Edge Devices
- Title(参考訳): 低消費電力エッジデバイスの加速訓練
- Authors: Mohamed Aboelenien Ahmed, Kilian Pfeiffer, Heba Khdr, Osama Abboud, Ramin Khalili, Jörg Henkel,
- Abstract要約: エッジデバイスでのトレーニングは、これらのデバイスが一般的にリソースの制約を受けており、特に電力の面では、いくつかの課題を生んでいる。
本稿では,デバイス上の電力制約に適応しつつ,システムとアプリケーションパラメータを協調的に調整することを提案する。
本稿では,バッチサイズ効率の予測とデバイスプロファイリングを組み合わせたクロスレイヤ手法を提案する。
- 参考スコア(独自算出の注目度): 11.02161053136761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training on edge devices poses several challenges as these devices are generally resource-constrained, especially in terms of power. State-of-the-art techniques at the device level reduce the GPU frequency to enforce power constraints, leading to a significant increase in training time. To accelerate training, we propose to jointly adjust the system and application parameters (in our case, the GPU frequency and the batch size of the training task) while adhering to the power constraints on devices. We introduce a novel cross-layer methodology that combines predictions of batch size efficiency and device profiling to achieve the desired optimization. Our evaluation on real hardware shows that our method outperforms the current baselines that depend on state of the art techniques, reducing the training time by $2.4\times$ with results very close to optimal. Our measurements also indicate a substantial reduction in the overall energy used for the training process. These gains are achieved without reduction in the performance of the trained model.
- Abstract(参考訳): エッジデバイスでのトレーニングは、これらのデバイスが一般的にリソースの制約を受けており、特に電力の面では、いくつかの課題を生んでいる。
デバイスレベルでの最先端技術は、電力制約を強制するためにGPU周波数を削減し、トレーニング時間を大幅に増加させる。
トレーニングを加速するために、デバイス上の電力制約に固執しながら、システムとアプリケーションパラメータ(この場合、GPU周波数とトレーニングタスクのバッチサイズ)を協調的に調整することを提案する。
本稿では,バッチサイズ効率の予測とデバイスプロファイリングを組み合わせたクロスレイヤ手法を提案する。
実ハードウェアに対する評価から,本手法は最先端技術に依存している現在のベースラインよりも優れており,トレーニング時間を2.4\times$に短縮し,結果が最適に近い。
また, トレーニングプロセスに使用する全エネルギーの大幅な削減が示唆された。
これらの利得は、訓練されたモデルの性能を低下させることなく達成される。
関連論文リスト
- QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - HALO: Hardware-aware quantization with low critical-path-delay weights for LLM acceleration [5.88033624474104]
ハードウェア・アウェア・ポスト・トライニング・量子化(PTQ)のための汎用フレームワークHALO
従来の方法とは異なり、HALOはクリティカルパスのタイミングや消費電力など、ハードウェアの詳細な特徴を明示的に取り入れている。
ベースライン量子化法では, 平均270%, 51%の省エネ性能が向上した。
論文 参考訳(メタデータ) (2025-02-27T01:08:33Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - SCoTTi: Save Computation at Training Time with an adaptive framework [7.780766187171572]
デバイス上でのトレーニングは、エッジデバイス上でモデルをトレーニングする機械学習における新たなアプローチである。
本研究では,SCoTTi(Save Computation at Training Time)を提案する。
提案手法は, 様々なベンチマークにおいて, 計算資源の節約に関する最先端手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T16:19:33Z) - Aggregating Capacity in FL through Successive Layer Training for
Computationally-Constrained Devices [3.4530027457862]
フェデレートラーニング(FL)は通常、リソース制約されたエッジデバイス上で実行される。
FLトレーニングプロセスはそのような制約に合わせて調整されるべきである。
本研究では,FLモデルのパラメータをデバイス上で連続的に凍結・訓練する手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T15:04:06Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - ZeroFL: Efficient On-Device Training for Federated Learning with Local
Sparsity [15.908499928588297]
フェデレートラーニング(FL)では、ノードは従来のサーバグレードのハードウェアよりも桁違いに制約を受ける。
我々は、デバイス上でのトレーニングを加速するために、高度にスパースな操作に依存するZeroFLを提案する。
論文 参考訳(メタデータ) (2022-08-04T07:37:07Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Improving the Speed and Quality of GAN by Adversarial Training [87.70013107142142]
我々は,GAN訓練の高速化と品質向上を目的としたFastGANを開発した。
当社のトレーニングアルゴリズムは,2-4GPUを必要とすることによって,ImageNetのトレーニングを一般向けに提供しています。
論文 参考訳(メタデータ) (2020-08-07T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。