論文の概要: Tensor-Aware Energy Accounting
- arxiv url: http://arxiv.org/abs/2311.11424v1
- Date: Sun, 19 Nov 2023 21:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:33:57.153293
- Title: Tensor-Aware Energy Accounting
- Title(参考訳): テンソルアウェアエネルギー会計
- Authors: Timur Babakol and Yu David Liu
- Abstract要約: ディープラーニングプログラムのための新しいエネルギー会計システムであるSmaragdineを紹介する。
スマラグジンは、BERTの最高エネルギー/電力消費成分を特定することができる。
Smaragdineが下流ツールチェーンの構築をどのようにサポートするかというケーススタディを2つ実施する。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of Artificial Intelligence (AI) applications supported
by deep learning (DL), the energy efficiency of these applications has an
increasingly large impact on sustainability. We introduce Smaragdine, a new
energy accounting system for tensor-based DL programs implemented with
TensorFlow. At the heart of Smaragdine is a novel white-box methodology of
energy accounting: Smaragdine is aware of the internal structure of the DL
program, which we call tensor-aware energy accounting. With Smaragdine, the
energy consumption of a DL program can be broken down into units aligned with
its logical hierarchical decomposition structure. We apply Smaragdine for
understanding the energy behavior of BERT, one of the most widely used language
models. Layer-by-layer and tensor-by-tensor, Smaragdine is capable of
identifying the highest energy/power-consuming components of BERT. Furthermore,
we conduct two case studies on how Smaragdine supports downstream toolchain
building, one on the comparative energy impact of hyperparameter tuning of
BERT, the other on the energy behavior evolution when BERT evolves to its next
generation, ALBERT.
- Abstract(参考訳): ディープラーニング(DL)がサポートする人工知能(AI)アプリケーションの急速な成長に伴い、これらのアプリケーションのエネルギー効率は持続可能性に大きな影響を与えている。
SmaragdineはTensorFlowで実装されたテンソルベースのDLプログラムのための新しいエネルギー会計システムである。
SmaragdineはDLプログラムの内部構造を認識しており、テンソル対応エネルギー会計と呼んでいる。
スマラグジンでは、DLプログラムのエネルギー消費は、その論理的階層的な分解構造に沿った単位に分解することができる。
我々は、最も広く使われている言語モデルの一つであるBERTのエネルギー挙動を理解するためにSmaragdineを適用した。
Smaragdineは、BERTの最も高いエネルギー/電力消費成分を識別することができる。
さらに,Smaragdineが下流のツールチェーン構築をどのようにサポートしているかを事例として,BERTのハイパーパラメータチューニングによるエネルギー影響と,BERTが次世代のALBERTに進化する際のエネルギー挙動の進化を比較検討した。
関連論文リスト
- SpikingBERT: Distilling BERT to Train Spiking Language Models Using
Implicit Differentiation [2.3361887733755897]
大型言語モデル(LLMs)は、ヒト脳よりもニューロンとシナプスが桁違いに少ない。
本稿では,脳内のシナプス情報の流れから動機づけを引き出すことにより,従来のLMの計算コストを削減することを目的とした,バイオインスパイアされたスパイク言語モデルを提案する。
我々の研究は、GLUEベンチマークで複数の異なるタスクにおいて、運用上のスパイクするLMアーキテクチャのパフォーマンスを実証する最初のものである。
論文 参考訳(メタデータ) (2023-08-21T17:20:05Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Isometric tensor network optimization for extensive Hamiltonians is free
of barren plateaus [0.0]
等尺テンソルネットワーク状態(TNS)のエネルギー最適化にはバレンプラトーが存在しないことを示す。
TNSは、強相関量子物質の効率的な量子計算に基づく研究に期待できるルートである。
論文 参考訳(メタデータ) (2023-04-27T16:45:57Z) - Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。
本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-14T18:51:22Z) - Momentum Adversarial Distillation: Handling Large Distribution Shifts in
Data-Free Knowledge Distillation [65.28708064066764]
モーメントム逆蒸留法(MAD)という簡便で効果的な方法を提案する。
MADは、ジェネレータの指数移動平均(EMA)コピーを保持し、ジェネレータとEMAジェネレータの合成サンプルを使用して生徒を訓練する。
ImageNetやPlaces365のような大きなデータセットを含む6つのベンチマークデータセットの実験では、競合する手法よりもMADの方が優れた性能を示している。
論文 参考訳(メタデータ) (2022-09-21T13:53:56Z) - Attention Mechanism with Energy-Friendly Operations [61.58748425876866]
我々はエネルギー消費の観点から注意機構を再考する。
我々は、乗算を選択的操作または加算に置き換えることで、新しい注意モデルを構築する。
3つの機械翻訳タスクにおける実験結果から,提案手法が再現可能な精度を実現することを示す。
論文 参考訳(メタデータ) (2022-04-28T08:50:09Z) - Energy-based Latent Aligner for Incremental Learning [83.0135278697976]
ディープラーニングモデルは、新しいタスクを漸進的に学習しながら、以前の知識を忘れる傾向があります。
この振る舞いは、新しいタスクに最適化されたパラメータ更新が、古いタスクに適したアップデートとうまく一致しない可能性があるため現れます。
ELI: インクリメンタルラーニングのためのエネルギーベースラテントアリグナーを提案する。
論文 参考訳(メタデータ) (2022-03-28T17:57:25Z) - Transient Chaos in BERT [2.3886615435250302]
変換器による双方向表現(BERT)は、最近、いくつかのNLPベンチマークで最先端のスコアを確立することで人気を集めている。
Lite BERT (ALBERT) は、文字通りBERTの軽量バージョンとして特徴付けられ、BERTパラメータの数が減少する。
本研究では,ALBERTの組込み特性について検討し,NLPタスクの動的利用による効果的解法を明らかにする。
論文 参考訳(メタデータ) (2021-06-06T17:02:29Z) - Energy-Based Reranking: Improving Neural Machine Translation Using
Energy-Based Models [59.039592890187144]
自己回帰型ニューラルネットワーク翻訳(NMT)における最大推定(MLE)とBLEUスコアなどのタスク尺度の相違について検討する。
MLEベースのトレーニングされたNMTから引き出されたサンプルは、所望の分布をサポートします。ビーム復号出力と比較して、BLEUスコアがはるかに高いサンプルがあります。
目的文の辺縁エネルギーモデルと、目的文の辺縁エネルギーモデルの両方を用いてアルゴリズムを改良する。
論文 参考訳(メタデータ) (2020-09-20T02:50:52Z) - Atomistic Structure Learning Algorithm with surrogate energy model
relaxation [0.0]
Atomistic Structure Learning Algorithmは、ニューラルネットワークを利用して画像認識と強化学習を可能にする。
ベンゼン造成におけるASLAの性能は, 代理エネルギー景観を利用して著しく向上した。
ASLAは、以前は走査型トンネル顕微鏡画像に基づいて推測されていた表面再構成を成功裏に同定した。
論文 参考訳(メタデータ) (2020-07-15T07:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。