論文の概要: A Transistor Operations Model for Deep Learning Energy Consumption
Scaling
- arxiv url: http://arxiv.org/abs/2205.15062v1
- Date: Mon, 30 May 2022 12:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 00:28:03.556175
- Title: A Transistor Operations Model for Deep Learning Energy Consumption
Scaling
- Title(参考訳): ディープラーニングエネルギー消費スケーリングのためのトランジスタ操作モデル
- Authors: Chen Li, Antonios Tsourdos, Weisi Guo
- Abstract要約: 深層学習(DL)は、幅広い産業の自動化を変革し、社会のユビキティを高めている。
DLモデルの複雑さの増大とその普及により、エネルギー消費は3~4ヶ月ごとに倍増した。
現在のFLOPとMACベースの手法は線形演算のみを考慮している。
DLモデル構成によるエネルギー消費のスケーリングにおける活性化関数とニューラルネットワーク構造の役割を明らかにするため,ボトムレベルトランジスタ操作(TOs)法を開発した。
- 参考スコア(独自算出の注目度): 14.856688747814912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning (DL) has transformed the automation of a wide range of
industries and finds increasing ubiquity in society. The increasing complexity
of DL models and its widespread adoption has led to the energy consumption
doubling every 3-4 months. Currently, the relationship between DL model
configuration and energy consumption is not well established. Current FLOPs and
MACs based methods only consider the linear operations. In this paper, we
develop a bottom-level Transistor Operations (TOs) method to expose the role of
activation functions and neural network structure in energy consumption scaling
with DL model configuration. TOs allows us uncovers the role played by
non-linear operations (e.g. division/root operations performed by activation
functions and batch normalisation). As such, our proposed TOs model provides
developers with a hardware-agnostic index for how energy consumption scales
with model settings. To validate our work, we analyse the TOs energy scaling of
a feed-forward DNN model set and achieve a 98.2% - 99.97% precision in
estimating its energy consumption. We believe this work can be extended to any
DL model.
- Abstract(参考訳): 深層学習(DL)は、幅広い産業の自動化を変革し、社会のユビキティを高めている。
DLモデルの複雑さの増大とその普及により、エネルギー消費は3~4ヶ月ごとに倍増した。
現在,DLモデルの構成とエネルギー消費の関係はよく分かっていない。
現在のフロップとmacsベースの方法は線形演算のみを考える。
本稿では,DLモデル構成によるエネルギー消費スケーリングにおける活性化関数とニューラルネットワーク構造の役割を明らかにするため,ボトムレベルトランジスタ操作(TOs)手法を開発した。
TOsは、非線形操作(例えば、アクティベーション関数とバッチ正規化によって実行される分割/ルート操作)によって実行される役割を明らかにすることができる。
そこで,提案したTOsモデルは,モデル設定によるエネルギー消費のスケールのハードウェアに依存しない指標を提供する。
本研究を検証するために, フィードフォワードdnnモデルセットのtosエネルギースケーリングを解析し, 98.2% - 99.97%の精度でエネルギー消費量を推定した。
この作業はどんなDLモデルにも拡張できると考えています。
関連論文リスト
- Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。
本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - Automated Deep Learning for Load Forecasting [0.34952465649465553]
本稿では、負荷予測のためにDeep Neural Networks(DNN)を実行するためにAutomated Deep Learning(AutoDL)を使用した理由と方法を説明する。
最終的に、DRAGONパッケージを拡張し、負荷予測に適用することで、EnergyDragonと呼ばれるAutoDLフレームワークを作成しました。
我々は、EnergyDragonが、最先端の負荷予測方法より優れた独自のDNNを見つけることができるというフランスの負荷信号について示す。
論文 参考訳(メタデータ) (2024-05-14T07:51:55Z) - Energy Efficient Deep Multi-Label ON/OFF Classification of Low Frequency Metered Home Appliances [0.16777183511743468]
非侵入負荷監視(Non-Inrusive Load Monitoring、NILM)は、単一計測点からアプライアンスレベルのデータを取得するプロセスである。
本稿では,NILMのマルチラベル分類を改良した新しいDLモデルを提案する。
最先端モデルと比較して、提案モデルではエネルギー消費を23%以上削減している。
論文 参考訳(メタデータ) (2023-07-18T13:23:23Z) - Minimizing Energy Consumption of Deep Learning Models by Energy-Aware
Training [26.438415753870917]
モデル学習におけるエネルギー消費の削減を目的とした勾配に基づくアルゴリズムであるEATを提案する。
エネルギーを考慮したトレーニングアルゴリズムであるEATは、分類性能とエネルギー効率のトレードオフを良くしてネットワークをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2023-07-01T15:44:01Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - Energy-Based Processes for Exchangeable Data [109.04978766553612]
エネルギーベースモデルを交換可能なデータに拡張するために、エネルギーベースプロセス(EBP)を導入する。
EBPの鍵となる利点は、集合上のより柔軟な分布を、その濃度を制限することなく表現できることである。
本研究では,多種多様なタスクにおける最先端性能を実演する電子掲示板の効率的な訓練手順を開発する。
論文 参考訳(メタデータ) (2020-03-17T04:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。