論文の概要: Dynamic Memory Based Adaptive Optimization
- arxiv url: http://arxiv.org/abs/2402.15262v1
- Date: Fri, 23 Feb 2024 11:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:51:24.661800
- Title: Dynamic Memory Based Adaptive Optimization
- Title(参考訳): 動的メモリに基づく適応最適化
- Authors: Bal\'azs Szegedy, Domonkos Czifra, P\'eter K\H{o}r\"osi-Szab\'o
- Abstract要約: 振り返り学習法則補正(Retrospective Learning Law Correction)と呼ばれる一般的な手法を導入する。
この方法は、メモリユニットの動的に変化する線形結合(学習法則と呼ばれる)を計算するように設計されている。
RLLCは、より多くのメモリユニットを追加し、より適応的にすることで、既知のものの性能を高めるための有望なフレームワークである、と結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Define an optimizer as having memory $k$ if it stores $k$ dynamically
changing vectors in the parameter space. Classical SGD has memory $0$, momentum
SGD optimizer has $1$ and Adam optimizer has $2$. We address the following
questions: How can optimizers make use of more memory units? What information
should be stored in them? How to use them for the learning steps? As an
approach to the last question, we introduce a general method called
"Retrospective Learning Law Correction" or shortly RLLC. This method is
designed to calculate a dynamically varying linear combination (called learning
law) of memory units, which themselves may evolve arbitrarily. We demonstrate
RLLC on optimizers whose memory units have linear update rules and small memory
($\leq 4$ memory units). Our experiments show that in a variety of standard
problems, these optimizers outperform the above mentioned three classical
optimizers. We conclude that RLLC is a promising framework for boosting the
performance of known optimizers by adding more memory units and by making them
more adaptive.
- Abstract(参考訳): パラメータ空間内で動的に変化するベクトルを$k$に格納すると、メモリ$k$を持つようにオプティマイザを定義する。
古典的なSGDはメモリ0ドル、運動量SGDオプティマイザは1ドル、Adamオプティマイザは2ドルだ。
オプティマイザは、より多くのメモリユニットをどのように利用できるのか?
その中にどんな情報を保存すべきですか。
学習にどのように使うのか?
最後の質問に対するアプローチとして,レトロスペクティブ学習法則(Retrospective Learning Law Correction)と呼ばれる一般的な手法を導入する。
この方法は、メモリユニットの動的に変化する線形結合(学習法則と呼ばれる)を計算するために設計され、それ自体が任意に進化する可能性がある。
メモリ単位が線形更新ルールと小さなメモリ(\leq 4$ メモリ単位)を持つオプティマイザ上で RLLC を実証する。
実験の結果,これらのオプティマイザは上記の3つの古典的オプティマイザよりも優れていた。
RLLCは、多くのメモリユニットを追加し、より適応的にすることで、既知のオプティマイザの性能を高めるための有望なフレームワークである。
関連論文リスト
- CompAct: Compressed Activations for Memory-Efficient LLM Training [7.837209773889032]
CompActはGPU上でのピークメモリ利用を事前トレーニングで25~30%削減し、LLMの微調整で50%削減する技術である。
低ランクで圧縮されたアクティベーションを後方パスに格納することで、必要なメモリを大幅に削減する。
CompActの貯蓄は、より大きなモデルに対してさらに高いスケールを期待しています。
論文 参考訳(メタデータ) (2024-10-20T10:24:38Z) - $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed Zeroth-Order Optimizer [43.86938914517675]
古典的な1次メモリを備えた細調整の大型言語モデル(LLM)は、バックプロパゲーションプロセスによって禁止的なGPUを必要とする。
最近の研究は微調整のためのゼロオーダーに変化しており、2つのフォワードパスを使用することでかなりのメモリを節約している。
本研究では, 対角的ヘッセン情報に基づくゼロ階軌道であるHiZOOを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:11:55Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - Practical tradeoffs between memory, compute, and performance in learned
optimizers [46.04132441790654]
我々は、多くの学習や手作業で設計された機能に対して、メモリ、計算、パフォーマンスのトレードオフを特定し、定量化する。
分析を活用して、従来の作業よりも速く、より効率的に学習可能なものを構築するのです。
論文 参考訳(メタデータ) (2022-03-22T16:36:36Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。