Fugu-MT 論文翻訳(概要): How Memory in Optimization Algorithms Implicitly Modifies the Loss

論文の概要: How Memory in Optimization Algorithms Implicitly Modifies the Loss

arxiv url: http://arxiv.org/abs/2502.02132v1
Date: Tue, 04 Feb 2025 09:04:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:56.039434
Title: How Memory in Optimization Algorithms Implicitly Modifies the Loss
Title（参考訳）: 最適化アルゴリズムの記憶はいかにして損失を暗黙的に修正するか
Authors: Matias D. Cattaneo, Boris Shigida,
Abstract要約: 本稿では,最適化アルゴリズムをメモリと近似するメモリレスアルゴリズムを同定する手法を提案する。我々は、LionがAdamWのようなメモリによって引き起こされる暗黙の反正則化を持っていないことを発見した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In modern optimization methods used in deep learning, each update depends on the history of previous iterations, often referred to as memory, and this dependence decays fast as the iterates go further into the past. For example, gradient descent with momentum has exponentially decaying memory through exponentially averaged past gradients. We introduce a general technique for identifying a memoryless algorithm that approximates an optimization algorithm with memory. It is obtained by replacing all past iterates in the update by the current one, and then adding a correction term arising from memory (also a function of the current iterate). This correction term can be interpreted as a perturbation of the loss, and the nature of this perturbation can inform how memory implicitly (anti-)regularizes the optimization dynamics. As an application of our theory, we find that Lion does not have the kind of implicit anti-regularization induced by memory that AdamW does, providing a theory-based explanation for Lion's better generalization performance recently documented.
Abstract（参考訳）: ディープラーニングで使用される現代的な最適化手法では、各更新は以前のイテレーションの履歴に依存し、しばしばメモリと呼ばれる。例えば、運動量による勾配降下は指数関数的に平均化された過去の勾配を通して指数関数的に記憶を減衰させた。本稿では,最適化アルゴリズムをメモリと近似するメモリレスアルゴリズムを同定する一般的な手法を提案する。更新中のすべての過去のイテレートを現在のイテレートに置き換えて、メモリ(現在のイテレートの関数)から生じる補正項を追加することで得られる。この補正項は損失の摂動と解釈することができ、この摂動の性質は、メモリがいかに最適化力学を暗黙的に(反)正則化するかを知らせることができる。我々の理論の応用として、ライオンは記憶によって誘導される暗黙の反正則化のようなものを持っておらず、最近記録されたライオンのより良い一般化性能に関する理論に基づく説明を提供する。

関連論文リスト

Lattice: Learning to Efficiently Compress the Memory [13.765057453744427]
本稿では,キャッシュを一定数のメモリスロットに効率よく圧縮する新しいリカレントニューラルネットワーク(RNN)機構であるLatticeを紹介する。我々は、この圧縮をオンライン最適化問題として定式化し、単一の勾配降下ステップに基づいて動的メモリ更新ルールを導出する。実験結果から,Latticeはコンテキスト長の異なるすべてのベースラインと比較して,最も難易度が高いことがわかった。
論文参考訳（メタデータ） (2025-04-08T03:48:43Z)
FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文参考訳（メタデータ） (2024-11-12T14:41:07Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
Moonwalk: Inverse-Forward Differentiation [4.425689868461635]
フォワードモード勾配計算は、可逆ネットワークにおいて代替となる。ムーンウォークは、バックプロパゲーションに匹敵する計算時間における可逆的ネットワークの真の勾配を計算する最初のフォワードベースの方法である。
論文参考訳（メタデータ） (2024-02-22T01:33:31Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Resetting the Optimizer in Deep RL: An Empirical Study [10.907980864371213]
深層強化学習における最適値関数の近似に着目する。この単純な修正により,Atariベンチマークにおける深部RLの性能が大幅に向上することが実証された。
論文参考訳（メタデータ） (2023-06-30T17:53:50Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Alternating Differentiation for Optimization Layers [133.2668019610731]
そこで我々は,最適化問題を識別するAlternating Differentiation (Alt-Diff) という新しいフレームワークを開発した。 Alt-Diff はヤコビ行列の次元を特に大規模制約のある最適化のために著しく減少させることを示す。また,Alt-Diffを切断して計算速度をさらに高速化することを提案する。
論文参考訳（メタデータ） (2022-10-03T11:32:13Z)
Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文参考訳（メタデータ） (2022-01-31T13:02:41Z)
ARCH: Efficient Adversarial Regularized Training with Caching [91.74682538906691]
逆正則化は、多くの自然言語処理タスクにおけるモデル一般化を改善することができる。本稿では,複数のエポック毎に摂動を発生・キャッシュする新たな逆正則化手法ARCHを提案する。提案手法をニューラルネットワーク翻訳と自然言語理解タスクのセットで評価する。
論文参考訳（メタデータ） (2021-09-15T02:05:37Z)
Memory Augmented Optimizers for Deep Learning [10.541705775336657]
本稿では,メモリ内の勾配履歴を限定的に把握する,メモリ拡張勾配降下の枠組みを提案する。固定サイズのメモリを持つ勾配勾配勾配のクラスは、強い凸性の仮定の下で収束することを示す。
論文参考訳（メタデータ） (2021-06-20T14:58:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。