Fugu-MT 論文翻訳(概要): Memory-Efficient Backpropagation through Large Linear Layers

論文の概要: Memory-Efficient Backpropagation through Large Linear Layers

arxiv url: http://arxiv.org/abs/2201.13195v1
Date: Mon, 31 Jan 2022 13:02:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-01 14:41:46.517105
Title: Memory-Efficient Backpropagation through Large Linear Layers
Title（参考訳）: 大きな線形層によるメモリ効率のよいバックプロパゲーション
Authors: Daniel Bershatsky, Aleksandr Mikhalev, Alexandr Katrutsa, Julia Gusak, Daniil Merkulov and Ivan Oseledets
Abstract要約: Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
参考スコア（独自算出の注目度）: 107.20037639738433
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In modern neural networks like Transformers, linear layers require significant memory to store activations during backward pass. This study proposes a memory reduction approach to perform backpropagation through linear layers. Since the gradients of linear layers are computed by matrix multiplications, we consider methods for randomized matrix multiplications and demonstrate that they require less memory with a moderate decrease of the test accuracy. Also, we investigate the variance of the gradient estimate induced by the randomized matrix multiplication. We compare this variance with the variance coming from gradient estimation based on the batch of samples. We demonstrate the benefits of the proposed method on the fine-tuning of the pre-trained RoBERTa model on GLUE tasks.
Abstract（参考訳）: Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。本研究では,線形層を介してバックプロパゲーションを行うためのメモリ削減手法を提案する。線形層の勾配は行列の乗算によって計算されるため、ランダム化行列の乗算の手法を検討し、テスト精度を緩やかに低下させることなく、少ないメモリを必要とすることを示す。また,ランダム化行列の乗算によって引き起こされる勾配推定のばらつきについて検討する。このばらつきを,サンプルのバッチに基づく勾配推定から得られるばらつきと比較する。 GLUEタスク上で事前学習したRoBERTaモデルの微調整における提案手法の利点を示す。

関連論文リスト

BALI: Learning Neural Networks via Bayesian Layerwise Inference [6.7819070167076045]
我々はベイズニューラルネットワークを学習し,それを多変量ベイズ線形回帰モデルのスタックとして扱う新しい手法を提案する。主なアイデアは、各レイヤの目標出力を正確に知っていれば、階層的に後方に推論することである。これらの擬似ターゲットをフォワードパスから出力する層として定義し、対象関数のバックプロパゲーションによって更新する。
論文参考訳（メタデータ） (2024-11-18T22:18:34Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
Hebbian learning inspired estimation of the linear regression parameters from queries [18.374824005225186]
本稿では,線形回帰モデルにおける回帰ベクトルを復元するために,このヘビアン学習規則のバリエーションについて検討する。我々は,このヘビアン学習規則が,データとは独立にクエリを選択する非適応的手法よりもはるかに高速に実行可能であることを証明した。
論文参考訳（メタデータ） (2023-09-26T19:00:32Z)
Low-rank extended Kalman filtering for online learning of neural networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文参考訳（メタデータ） (2023-05-31T03:48:49Z)
Neural incomplete factorization: learning preconditioners for the conjugate gradient method [2.899792823251184]
我々は、効率的なプレコンディショナーの生成を加速するためのデータ駆動型アプローチを開発する。一般的に手動のプリコンディショナーをグラフニューラルネットワークの出力に置き換える。本手法は, 行列の不完全分解を発生させ, 神経不完全分解(NeuralIF)と呼ばれる。
論文参考訳（メタデータ） (2023-05-25T11:45:46Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Graph Polynomial Convolution Models for Node Classification of Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文参考訳（メタデータ） (2022-09-12T04:46:55Z)
High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文参考訳（メタデータ） (2022-02-25T16:35:26Z)
Explainable nonlinear modelling of multiple time series with invertible neural networks [7.605814048051735]
時系列の集合が2つのステップで生成されるという仮定に基づいて,非線形トポロジ同定法を提案する。後者のマッピングは非可逆であると仮定され、浅いニューラルネットワークとしてモデル化され、その逆を数値的に評価することができる。本稿では、暗黙の微分を応用した勾配の計算に必要なステップについて説明する。
論文参考訳（メタデータ） (2021-07-01T12:07:09Z)
Meta-learning for Matrix Factorization without Shared Rows or Columns [39.56814839510978]
提案手法は,行列を入力とするニューラルネットワークを用いて,行列の分解行列の事前分布を生成する。ニューラルネットワークは、期待される計算誤差を最小限に抑えるようにメタ学習される。 3つのユーザ・イテム評価データセットを用いた実験により,提案手法は未知の行列における限られた数の観測結果から,欠落した値をインプットできることを示した。
論文参考訳（メタデータ） (2021-06-29T07:40:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。