Fugu-MT 論文翻訳(概要): Analysis of memory consumption by neural networks based on hyperparameters

論文の概要: Analysis of memory consumption by neural networks based on hyperparameters

arxiv url: http://arxiv.org/abs/2110.11424v1
Date: Thu, 21 Oct 2021 18:49:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-25 13:51:58.609825
Title: Analysis of memory consumption by neural networks based on hyperparameters
Title（参考訳）: ハイパーパラメータに基づくニューラルネットワークによるメモリ消費の解析
Authors: Mahendran N
Abstract要約: 本稿では,ディープラーニングモデルの学習中にメモリ消費の総括分析を行う。ハイパーパラメータの変化と隠蔽層の数はこの提案手法で考慮された変数である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Deep learning models are trained and deployed in multiple domains. Increasing usage of deep learning models alarms the usage of memory consumed while computation by deep learning models. Existing approaches for reducing memory consumption like model compression, hardware changes are specific. We propose a generic analysis of memory consumption while training deep learning models in comparison with hyperparameters used for training. Hyperparameters which includes the learning rate, batchsize, number of hidden layers and depth of layers decide the model performance, accuracy of the model. We assume the optimizers and type of hidden layers as a known values. The change in hyperparamaters and the number of hidden layers are the variables considered in this proposed approach. For better understanding of the computation cost, this proposed analysis studies the change in memory consumption with respect to hyperparameters as main focus. This results in general analysis of memory consumption changes during training when set of hyperparameters are altered.
Abstract（参考訳）: ディープラーニングモデルはトレーニングされ、複数のドメインにデプロイされる。ディープラーニングモデルの使用の増加は、ディープラーニングモデルによる計算中に消費されるメモリの使用を警告する。モデル圧縮のようなメモリ消費を減らす既存のアプローチでは、ハードウェアの変更が特有である。本稿では,ディープラーニングモデルをトレーニングしながら,トレーニングに使用するハイパーパラメータと比較し,メモリ消費の汎用的解析を提案する。学習率、バッチサイズ、隠れたレイヤの数、層深度を含むハイパーパラメータは、モデルの性能、モデルの正確性を決定する。最適化と隠されたレイヤのタイプを既知の値と仮定する。ハイパーパラメータの変化と隠蔽層の数はこの提案手法で考慮された変数である。計算コストをよりよく理解するため,本解析ではハイパーパラメータに対するメモリ消費の変化を主眼として検討する。これにより、ハイパーパラメータのセットを変更すると、トレーニング中のメモリ消費の変化が一般化される。

関連論文リスト

Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
Replacement Learning: Training Vision Tasks with Fewer Learnable Parameters [4.2114456503277315]
置換学習は、冷凍層の全パラメータを2つの学習可能なパラメータで置き換える。 CIFAR-10, STL-10, SVHN, ImageNetの4つのベンチマークデータセットを対象に実験を行った。提案手法は,エンドツーエンドトレーニングの性能を完全に超えながら,パラメータ数,トレーニング時間,メモリ使用量を削減する。
論文参考訳（メタデータ） (2024-10-02T05:03:54Z)
Lowering PyTorch's Memory Consumption for Selective Differentiation [2.424775261485421]
PyTorchの現在のAD実装は、グラフを格納する際のパラメータの微分性に関する情報を無視している。このようなレイヤのドロップインで微分可能性に依存しない実装を提供し、実行時間に影響を与えることなくメモリ削減能力を示す。
論文参考訳（メタデータ） (2024-04-15T22:53:30Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文参考訳（メタデータ） (2022-03-23T12:52:49Z)
Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文参考訳（メタデータ） (2021-11-18T18:06:01Z)
Representation Memorization for Fast Learning New Knowledge without Forgetting [36.55736909586313]
新しい知識を素早く学習する能力は、人間レベルの知性への大きな一歩だ。新しいクラスやデータ配布を迅速かつ漸進的に学ぶ必要があるシナリオを考えます。本稿では,2つの課題に対処するため,メモリベースのヘビアン適応を提案する。
論文参考訳（メタデータ） (2021-08-28T07:54:53Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。