論文の概要: Accelerated Training on Low-Power Edge Devices
- arxiv url: http://arxiv.org/abs/2502.18323v1
- Date: Tue, 25 Feb 2025 16:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:20:51.567007
- Title: Accelerated Training on Low-Power Edge Devices
- Title(参考訳): 低消費電力エッジデバイスの加速訓練
- Authors: Mohamed Aboelenien Ahmed, Kilian Pfeiffer, Heba Khdr, Osama Abboud, Ramin Khalili, Jörg Henkel,
- Abstract要約: エッジデバイスでのトレーニングは、これらのデバイスが一般的にリソースの制約を受けており、特に電力の面では、いくつかの課題を生んでいる。
本稿では,デバイス上の電力制約に適応しつつ,システムとアプリケーションパラメータを協調的に調整することを提案する。
本稿では,バッチサイズ効率の予測とデバイスプロファイリングを組み合わせたクロスレイヤ手法を提案する。
- 参考スコア(独自算出の注目度): 11.02161053136761
- License:
- Abstract: Training on edge devices poses several challenges as these devices are generally resource-constrained, especially in terms of power. State-of-the-art techniques at the device level reduce the GPU frequency to enforce power constraints, leading to a significant increase in training time. To accelerate training, we propose to jointly adjust the system and application parameters (in our case, the GPU frequency and the batch size of the training task) while adhering to the power constraints on devices. We introduce a novel cross-layer methodology that combines predictions of batch size efficiency and device profiling to achieve the desired optimization. Our evaluation on real hardware shows that our method outperforms the current baselines that depend on state of the art techniques, reducing the training time by $2.4\times$ with results very close to optimal. Our measurements also indicate a substantial reduction in the overall energy used for the training process. These gains are achieved without reduction in the performance of the trained model.
- Abstract(参考訳): エッジデバイスでのトレーニングは、これらのデバイスが一般的にリソースの制約を受けており、特に電力の面では、いくつかの課題を生んでいる。
デバイスレベルでの最先端技術は、電力制約を強制するためにGPU周波数を削減し、トレーニング時間を大幅に増加させる。
トレーニングを加速するために、デバイス上の電力制約に固執しながら、システムとアプリケーションパラメータ(この場合、GPU周波数とトレーニングタスクのバッチサイズ)を協調的に調整することを提案する。
本稿では,バッチサイズ効率の予測とデバイスプロファイリングを組み合わせたクロスレイヤ手法を提案する。
実ハードウェアに対する評価から,本手法は最先端技術に依存している現在のベースラインよりも優れており,トレーニング時間を2.4\times$に短縮し,結果が最適に近い。
また, トレーニングプロセスに使用する全エネルギーの大幅な削減が示唆された。
これらの利得は、訓練されたモデルの性能を低下させることなく達成される。
関連論文リスト
- When UAV Meets Federated Learning: Latency Minimization via Joint Trajectory Design and Resource Allocation [47.20867891501245]
フェデレートラーニング(FL)は、無線ネットワーク上で機械学習モデルをトレーニングするための重要なソリューションとして登場した。
本研究では,無人航空機(UAV)を移動FLサーバとして展開し,FLの訓練プロセスを強化する,革新的なアプローチを提案する。
全体としてのトレーニング効率を改善するために,帯域割り当て,演算周波数,UAVとIoTデバイスの両方の送信電力,UAVの軌道を最適化して遅延問題を定式化する。
論文 参考訳(メタデータ) (2024-12-10T11:39:27Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - SCoTTi: Save Computation at Training Time with an adaptive framework [7.780766187171572]
デバイス上でのトレーニングは、エッジデバイス上でモデルをトレーニングする機械学習における新たなアプローチである。
本研究では,SCoTTi(Save Computation at Training Time)を提案する。
提案手法は, 様々なベンチマークにおいて, 計算資源の節約に関する最先端手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T16:19:33Z) - Aggregating Capacity in FL through Successive Layer Training for
Computationally-Constrained Devices [3.4530027457862]
フェデレートラーニング(FL)は通常、リソース制約されたエッジデバイス上で実行される。
FLトレーニングプロセスはそのような制約に合わせて調整されるべきである。
本研究では,FLモデルのパラメータをデバイス上で連続的に凍結・訓練する手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T15:04:06Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - ZeroFL: Efficient On-Device Training for Federated Learning with Local
Sparsity [15.908499928588297]
フェデレートラーニング(FL)では、ノードは従来のサーバグレードのハードウェアよりも桁違いに制約を受ける。
我々は、デバイス上でのトレーニングを加速するために、高度にスパースな操作に依存するZeroFLを提案する。
論文 参考訳(メタデータ) (2022-08-04T07:37:07Z) - Dynamic Scheduling for Over-the-Air Federated Edge Learning with Energy
Constraints [44.311278843238675]
アナログ勾配アグリゲーションを用いた空対空FEELシステムについて検討する。
トレーニング性能を最適化するために,エネルギーを考慮した動的デバイススケジューリングアルゴリズムを提案する。
高度に不均衡なローカルデータ分布の下では、提案アルゴリズムは精度を4.9%向上させることができる。
論文 参考訳(メタデータ) (2021-05-31T08:55:02Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Improving the Speed and Quality of GAN by Adversarial Training [87.70013107142142]
我々は,GAN訓練の高速化と品質向上を目的としたFastGANを開発した。
当社のトレーニングアルゴリズムは,2-4GPUを必要とすることによって,ImageNetのトレーニングを一般向けに提供しています。
論文 参考訳(メタデータ) (2020-08-07T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。