論文の概要: Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach
- arxiv url: http://arxiv.org/abs/2406.07332v1
- Date: Tue, 11 Jun 2024 15:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 15:24:54.404094
- Title: Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach
- Title(参考訳): ディープラーニングモデルトレーニングにおけるエネルギーコストの最小化:ガウスサンプリングアプローチ
- Authors: Challapalli Phanindra Revanth, Sumohana S. Channappayya, C Krishna Mohan,
- Abstract要約: ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
- 参考スコア(独自算出の注目度): 11.878350833222711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computing the loss gradient via backpropagation consumes considerable energy during deep learning (DL) model training. In this paper, we propose a novel approach to efficiently compute DL models' gradients to mitigate the substantial energy overhead associated with backpropagation. Exploiting the over-parameterized nature of DL models and the smoothness of their loss landscapes, we propose a method called {\em GradSamp} for sampling gradient updates from a Gaussian distribution. Specifically, we update model parameters at a given epoch (chosen periodically or randomly) by perturbing the parameters (element-wise) from the previous epoch with Gaussian ``noise''. The parameters of the Gaussian distribution are estimated using the error between the model parameter values from the two previous epochs. {\em GradSamp} not only streamlines gradient computation but also enables skipping entire epochs, thereby enhancing overall efficiency. We rigorously validate our hypothesis across a diverse set of standard and non-standard CNN and transformer-based models, spanning various computer vision tasks such as image classification, object detection, and image segmentation. Additionally, we explore its efficacy in out-of-distribution scenarios such as Domain Adaptation (DA), Domain Generalization (DG), and decentralized settings like Federated Learning (FL). Our experimental results affirm the effectiveness of {\em GradSamp} in achieving notable energy savings without compromising performance, underscoring its versatility and potential impact in practical DL applications.
- Abstract(参考訳): バックプロパゲーションによる損失勾配の計算は、ディープラーニング(DL)モデルのトレーニング中にかなりのエネルギーを消費する。
本稿では,バックプロパゲーションに伴うエネルギーオーバーヘッドを軽減するために,DLモデルの勾配を効率的に計算する手法を提案する。
DLモデルの過度パラメータ化特性と損失景観の滑らかさを探索し,ガウス分布からの勾配更新をサンプリングする手法である {\em GradSamp} を提案する。
具体的には、ガウスの ` `noise'' を用いて、前回のエポックからパラメータ(要素的に)を摂動させることにより、与えられたエポックにおけるモデルパラメータ(周期的にまたはランダムに)を更新する。
ガウス分布のパラメータは、2つの前のエポックからのモデルパラメータ値間の誤差を用いて推定される。
{\em GradSamp} は勾配計算を効率化するだけでなく、エポック全体のスキップを可能にし、全体的な効率を向上する。
我々は、画像分類、オブジェクト検出、画像セグメント化といった様々なコンピュータビジョンタスクにまたがる、標準および非標準のCNNおよびトランスフォーマーベースモデルの多様なセットにまたがって、我々の仮説を厳格に検証する。
さらに、ドメイン適応(DA)、ドメイン一般化(DG)、フェデレートラーニング(FL)のような分散的な設定など、アウト・オブ・ディストリビューションのシナリオで有効性を検討する。
本研究は, 実用DLアプリケーションにおいて, 性能を損なうことなく省エネを図り, その汎用性と潜在的影響を実証する実験である。
関連論文リスト
- Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - On the Impact of Sampling on Deep Sequential State Estimation [17.92198582435315]
逐次モデルにおける状態推定とパラメータ学習は近似手法を用いてうまく行うことができる。
モンテカルロの厳密な目的は、生成的モデリング性能を向上させるために文献で提案されている。
論文 参考訳(メタデータ) (2023-11-28T17:59:49Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Efficient Training of Energy-Based Models Using Jarzynski Equality [13.636994997309307]
エネルギーベースモデル(英: Energy-based model、EBM)は、統計物理学にインスパイアされた生成モデルである。
モデルパラメータに対する勾配の計算には、モデルの分布をサンプリングする必要がある。
ここでは、ジャジンスキーの等式に基づく非平衡熱力学の結果を用いて、この計算を効率的に行う方法を示す。
論文 参考訳(メタデータ) (2023-05-30T21:07:52Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Disentangling Generative Factors of Physical Fields Using Variational
Autoencoders [0.0]
本研究は,非線形次元低減のための変分オートエンコーダ (VAE) の利用について検討する。
不整合分解は解釈可能であり、生成的モデリングを含む様々なタスクに転送することができる。
論文 参考訳(メタデータ) (2021-09-15T16:02:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。