Fugu-MT 論文翻訳(概要): Low-rank Gradient Approximation For Memory-Efficient On-device Training of Deep Neural Network

論文の概要: Low-rank Gradient Approximation For Memory-Efficient On-device Training of Deep Neural Network

arxiv url: http://arxiv.org/abs/2001.08885v1
Date: Fri, 24 Jan 2020 05:12:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-07 05:07:54.649781
Title: Low-rank Gradient Approximation For Memory-Efficient On-device Training of Deep Neural Network
Title（参考訳）: ディープニューラルネットワークのメモリ効率向上のための低ランク勾配近似
Authors: Mary Gooneratne, Khe Chai Sim, Petr Zadrazil, Andreas Kabel, Fran\c{c}oise Beaufays, Giovanni Motta
Abstract要約: モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。この目標を達成する上での大きな障害のひとつは、モバイルデバイスのメモリ制限である。本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。
参考スコア（独自算出の注目度）: 9.753369031264532
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training machine learning models on mobile devices has the potential of improving both privacy and accuracy of the models. However, one of the major obstacles to achieving this goal is the memory limitation of mobile devices. Reducing training memory enables models with high-dimensional weight matrices, like automatic speech recognition (ASR) models, to be trained on-device. In this paper, we propose approximating the gradient matrices of deep neural networks using a low-rank parameterization as an avenue to save training memory. The low-rank gradient approximation enables more advanced, memory-intensive optimization techniques to be run on device. Our experimental results show that we can reduce the training memory by about 33.0% for Adam optimization. It uses comparable memory to momentum optimization and achieves a 4.5% relative lower word error rate on an ASR personalization task.
Abstract（参考訳）: モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。しかし、この目標を達成するための大きな障害の1つは、モバイルデバイスのメモリ制限である。トレーニングメモリの削減により、自動音声認識(ASR)モデルのような高次元の重量行列を持つモデルをデバイス上でトレーニングすることができる。本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。低ランク勾配近似により、より高度なメモリ集約型最適化技術がデバイス上で実行できる。実験の結果,adam最適化ではトレーニングメモリを約33.0%削減できることがわかった。運動量最適化に匹敵するメモリを使用し、ASRパーソナライゼーションタスクにおいて4.5%低い単語エラー率を達成する。

関連論文リスト

Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文参考訳（メタデータ） (2024-11-06T16:33:21Z)
Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models [51.3915762595891]
本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
論文参考訳（メタデータ） (2024-11-02T08:42:48Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
OLLA: Decreasing the Memory Usage of Neural Networks by Optimizing the Lifetime and Location of Arrays [6.418232942455968]
OLLAは、ニューラルネットワークのトレーニングに使用されるテンソルの寿命とメモリ位置を最適化するアルゴリズムである。問題のエンコーディングを単純化し、最先端のニューラルネットワークのサイズにスケールするためのアプローチを可能にするために、いくつかの手法を提案する。
論文参考訳（メタデータ） (2022-10-24T02:39:13Z)
POET: Training Neural Networks on Tiny Devices with Integrated Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文参考訳（メタデータ） (2022-07-15T18:36:29Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。