論文の概要: A Transistor Operations Model for Deep Learning Energy Consumption
Scaling
- arxiv url: http://arxiv.org/abs/2205.15062v1
- Date: Mon, 30 May 2022 12:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 00:28:03.556175
- Title: A Transistor Operations Model for Deep Learning Energy Consumption
Scaling
- Title(参考訳): ディープラーニングエネルギー消費スケーリングのためのトランジスタ操作モデル
- Authors: Chen Li, Antonios Tsourdos, Weisi Guo
- Abstract要約: 深層学習(DL)は、幅広い産業の自動化を変革し、社会のユビキティを高めている。
DLモデルの複雑さの増大とその普及により、エネルギー消費は3~4ヶ月ごとに倍増した。
現在のFLOPとMACベースの手法は線形演算のみを考慮している。
DLモデル構成によるエネルギー消費のスケーリングにおける活性化関数とニューラルネットワーク構造の役割を明らかにするため,ボトムレベルトランジスタ操作(TOs)法を開発した。
- 参考スコア(独自算出の注目度): 14.856688747814912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning (DL) has transformed the automation of a wide range of
industries and finds increasing ubiquity in society. The increasing complexity
of DL models and its widespread adoption has led to the energy consumption
doubling every 3-4 months. Currently, the relationship between DL model
configuration and energy consumption is not well established. Current FLOPs and
MACs based methods only consider the linear operations. In this paper, we
develop a bottom-level Transistor Operations (TOs) method to expose the role of
activation functions and neural network structure in energy consumption scaling
with DL model configuration. TOs allows us uncovers the role played by
non-linear operations (e.g. division/root operations performed by activation
functions and batch normalisation). As such, our proposed TOs model provides
developers with a hardware-agnostic index for how energy consumption scales
with model settings. To validate our work, we analyse the TOs energy scaling of
a feed-forward DNN model set and achieve a 98.2% - 99.97% precision in
estimating its energy consumption. We believe this work can be extended to any
DL model.
- Abstract(参考訳): 深層学習(DL)は、幅広い産業の自動化を変革し、社会のユビキティを高めている。
DLモデルの複雑さの増大とその普及により、エネルギー消費は3~4ヶ月ごとに倍増した。
現在,DLモデルの構成とエネルギー消費の関係はよく分かっていない。
現在のフロップとmacsベースの方法は線形演算のみを考える。
本稿では,DLモデル構成によるエネルギー消費スケーリングにおける活性化関数とニューラルネットワーク構造の役割を明らかにするため,ボトムレベルトランジスタ操作(TOs)手法を開発した。
TOsは、非線形操作(例えば、アクティベーション関数とバッチ正規化によって実行される分割/ルート操作)によって実行される役割を明らかにすることができる。
そこで,提案したTOsモデルは,モデル設定によるエネルギー消費のスケールのハードウェアに依存しない指標を提供する。
本研究を検証するために, フィードフォワードdnnモデルセットのtosエネルギースケーリングを解析し, 98.2% - 99.97%の精度でエネルギー消費量を推定した。
この作業はどんなDLモデルにも拡張できると考えています。
関連論文リスト
- Evaluating the Energy Efficiency of Few-Shot Learning for Object
Detection in Industrial Settings [6.611985866622974]
本稿では、下流タスクに標準オブジェクト検出モデルを適用するための微調整手法を提案する。
開発モデルにおけるエネルギー需要のケーススタディと評価について述べる。
最後に、このトレードオフを、カスタマイズされた効率係数測定によって定量化する新しい方法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T11:41:30Z) - Minimizing Energy Consumption of Deep Learning Models by Energy-Aware
Training [26.438415753870917]
モデル学習におけるエネルギー消費の削減を目的とした勾配に基づくアルゴリズムであるEATを提案する。
エネルギーを考慮したトレーニングアルゴリズムであるEATは、分類性能とエネルギー効率のトレードオフを良くしてネットワークをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2023-07-01T15:44:01Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - Energy-Based Processes for Exchangeable Data [109.04978766553612]
エネルギーベースモデルを交換可能なデータに拡張するために、エネルギーベースプロセス(EBP)を導入する。
EBPの鍵となる利点は、集合上のより柔軟な分布を、その濃度を制限することなく表現できることである。
本研究では,多種多様なタスクにおける最先端性能を実演する電子掲示板の効率的な訓練手順を開発する。
論文 参考訳(メタデータ) (2020-03-17T04:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。