Fugu-MT 論文翻訳(概要): A Transistor Operations Model for Deep Learning Energy Consumption Scaling

論文の概要: A Transistor Operations Model for Deep Learning Energy Consumption Scaling

arxiv url: http://arxiv.org/abs/2205.15062v1
Date: Mon, 30 May 2022 12:42:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-01 00:28:03.556175
Title: A Transistor Operations Model for Deep Learning Energy Consumption Scaling
Title（参考訳）: ディープラーニングエネルギー消費スケーリングのためのトランジスタ操作モデル
Authors: Chen Li, Antonios Tsourdos, Weisi Guo
Abstract要約: 深層学習(DL)は、幅広い産業の自動化を変革し、社会のユビキティを高めている。 DLモデルの複雑さの増大とその普及により、エネルギー消費は3～4ヶ月ごとに倍増した。現在のFLOPとMACベースの手法は線形演算のみを考慮している。 DLモデル構成によるエネルギー消費のスケーリングにおける活性化関数とニューラルネットワーク構造の役割を明らかにするため,ボトムレベルトランジスタ操作(TOs)法を開発した。
参考スコア（独自算出の注目度）: 14.856688747814912
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Learning (DL) has transformed the automation of a wide range of industries and finds increasing ubiquity in society. The increasing complexity of DL models and its widespread adoption has led to the energy consumption doubling every 3-4 months. Currently, the relationship between DL model configuration and energy consumption is not well established. Current FLOPs and MACs based methods only consider the linear operations. In this paper, we develop a bottom-level Transistor Operations (TOs) method to expose the role of activation functions and neural network structure in energy consumption scaling with DL model configuration. TOs allows us uncovers the role played by non-linear operations (e.g. division/root operations performed by activation functions and batch normalisation). As such, our proposed TOs model provides developers with a hardware-agnostic index for how energy consumption scales with model settings. To validate our work, we analyse the TOs energy scaling of a feed-forward DNN model set and achieve a 98.2% - 99.97% precision in estimating its energy consumption. We believe this work can be extended to any DL model.
Abstract（参考訳）: 深層学習(DL)は、幅広い産業の自動化を変革し、社会のユビキティを高めている。 DLモデルの複雑さの増大とその普及により、エネルギー消費は3～4ヶ月ごとに倍増した。現在,DLモデルの構成とエネルギー消費の関係はよく分かっていない。現在のフロップとmacsベースの方法は線形演算のみを考える。本稿では,DLモデル構成によるエネルギー消費スケーリングにおける活性化関数とニューラルネットワーク構造の役割を明らかにするため,ボトムレベルトランジスタ操作(TOs)手法を開発した。 TOsは、非線形操作(例えば、アクティベーション関数とバッチ正規化によって実行される分割/ルート操作)によって実行される役割を明らかにすることができる。そこで,提案したTOsモデルは,モデル設定によるエネルギー消費のスケールのハードウェアに依存しない指標を提供する。本研究を検証するために, フィードフォワードdnnモデルセットのtosエネルギースケーリングを解析し, 98.2% - 99.97%の精度でエネルギー消費量を推定した。この作業はどんなDLモデルにも拡張できると考えています。

関連論文リスト

Green MLOps to Green GenOps: An Empirical Study of Energy Consumption in Discriminative and Generative AI Operations [2.2765705959685234]
本研究では,実世界のMLOpsパイプラインにおける識別型および生成型AIモデルのエネルギー消費について検討する。さまざまな構成、モデル、データセットにわたるレプリケーションの容易性を保証するために、ソフトウェアベースのパワー測定を採用しています。
論文参考訳（メタデータ） (2025-03-31T10:28:04Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
THOR: A Generic Energy Estimation Approach for On-Device Training [34.57867978862375]
THORは、ディープニューラルネットワーク(DNN)トレーニングにおけるエネルギー消費推定のための一般的なアプローチである。我々は、様々な現実世界のプラットフォームにまたがる様々なタイプのモデルで広範な実験を行う。その結果,THORは平均絶対パーセンテージ誤差(MAPE)を最大30%削減した。
論文参考訳（メタデータ） (2025-01-27T03:29:02Z)
Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文参考訳（メタデータ） (2024-09-02T08:10:51Z)
Automated Deep Learning for Load Forecasting [0.34952465649465553]
本稿では、負荷予測のためにDeep Neural Networks(DNN)を実行するためにAutomated Deep Learning(AutoDL)を使用した理由と方法を説明する。最終的に、DRAGONパッケージを拡張し、負荷予測に適用することで、EnergyDragonと呼ばれるAutoDLフレームワークを作成しました。我々は、EnergyDragonが、最先端の負荷予測方法より優れた独自のDNNを見つけることができるというフランスの負荷信号について示す。
論文参考訳（メタデータ） (2024-05-14T07:51:55Z)
Energy Efficient Deep Multi-Label ON/OFF Classification of Low Frequency Metered Home Appliances [0.16777183511743468]
非侵入負荷監視(Non-Inrusive Load Monitoring、NILM)は、単一計測点からアプライアンスレベルのデータを取得するプロセスである。本稿では,NILMのマルチラベル分類を改良した新しいDLモデルを提案する。最先端モデルと比較して、提案モデルではエネルギー消費を23%以上削減している。
論文参考訳（メタデータ） (2023-07-18T13:23:23Z)
Minimizing Energy Consumption of Deep Learning Models by Energy-Aware Training [26.438415753870917]
モデル学習におけるエネルギー消費の削減を目的とした勾配に基づくアルゴリズムであるEATを提案する。エネルギーを考慮したトレーニングアルゴリズムであるEATは、分類性能とエネルギー効率のトレードオフを良くしてネットワークをトレーニングできることを実証する。
論文参考訳（メタデータ） (2023-07-01T15:44:01Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。 Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文参考訳（メタデータ） (2021-04-04T17:56:34Z)
Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文参考訳（メタデータ） (2020-11-10T19:31:29Z)
Energy-Based Processes for Exchangeable Data [109.04978766553612]
エネルギーベースモデルを交換可能なデータに拡張するために、エネルギーベースプロセス(EBP)を導入する。 EBPの鍵となる利点は、集合上のより柔軟な分布を、その濃度を制限することなく表現できることである。本研究では,多種多様なタスクにおける最先端性能を実演する電子掲示板の効率的な訓練手順を開発する。
論文参考訳（メタデータ） (2020-03-17T04:26:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。