論文の概要: On the Duality between Gradient Transformations and Adapters
- arxiv url: http://arxiv.org/abs/2502.13811v1
- Date: Wed, 19 Feb 2025 15:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:21.154090
- Title: On the Duality between Gradient Transformations and Adapters
- Title(参考訳): 勾配変換と適応器の双対性について
- Authors: Lucas Torroba-Hennigen, Hunter Lang, Han Guo, Yoon Kim,
- Abstract要約: 線形勾配変換を用いたニューラルネットワークのメモリ効率最適化について検討する。
勾配変換は、全パラメータ空間よりも低次元空間に線形にマッピングされる。
この双対性は、メモリ効率のトレーニングに対する既存のアプローチを統一し、トレーニング効率とメモリ使用量を改善するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 42.29393106429133
- License:
- Abstract: We study memory-efficient optimization of neural networks with linear gradient transformations, where the gradients are linearly mapped to a lower dimensional space than the full parameter space, thus saving memory required for gradient accumulation and optimizer state persistence. The model parameters are updated by first performing an optimization step in the lower dimensional space and then going back into the original parameter space via the linear map's transpose. We show that optimizing the model in this transformed space is equivalent to reparameterizing the original model through a linear adapter that additively modifies the model parameters, and then only optimizing the adapter's parameters. When the transformation is Kronecker-factored, this establishes an equivalence between GaLore and one-sided LoRA. We show that this duality between gradient transformations and adapter-based reparameterizations unifies existing approaches to memory-efficient training and suggests new techniques for improving training efficiency and memory use.
- Abstract(参考訳): 線形勾配変換を伴うニューラルネットワークのメモリ効率の最適化について検討し、勾配を全パラメータ空間よりも低次元空間に線形にマッピングすることで、勾配の蓄積と最適状態の永続化に必要なメモリを節約する。
モデルパラメータは、まず低次元空間で最適化ステップを実行し、次に線形写像の転置を通して元のパラメータ空間に戻ることで更新される。
この変換空間におけるモデルの最適化は、モデルパラメータを加法的に修飾する線形アダプタを通じて元のモデルのパラメータを再パラメータ化し、それからアダプタのパラメータのみを最適化することと同値であることを示す。
変換が Kronecker-factored であるとき、これはGaLore と片側 LoRA の同値性を確立する。
この勾配変換とアダプタによる再パラメータ化の双対性は、メモリ効率のトレーニングに対する既存のアプローチを統一することを示し、トレーニング効率とメモリ使用量を改善するための新しい手法を提案する。
関連論文リスト
- Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guarantees [5.399838579600896]
本稿では,メモリ最適化のための2つの補完手法を提案する。
1つのテクニックであるSubset-Normは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
別の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
論文 参考訳(メタデータ) (2024-11-11T16:48:07Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Reducing measurement costs by recycling the Hessian in adaptive variational quantum algorithms [0.0]
本稿では,適応VQAに適した準ニュートン最適化プロトコルを提案する。
我々は,適応VQAの繰り返しを通じて,逆ヘッセン行列に対する近似を連続的に構築し,成長させる準ニュートンアルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-01-10T14:08:04Z) - Gradient-based bilevel optimization for multi-penalty Ridge regression
through matrix differential calculus [0.46040036610482665]
我々は,l2-正則化を用いた線形回帰問題に対する勾配に基づくアプローチを導入する。
提案手法はLASSO, Ridge, Elastic Netレグレッションよりも優れていることを示す。
勾配の解析は、自動微分と比較して計算時間の観点からより効率的であることが証明されている。
論文 参考訳(メタデータ) (2023-11-23T20:03:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Automatic Parameterization for Aerodynamic Shape Optimization via Deep
Geometric Learning [60.69217130006758]
空力形状最適化のための形状パラメータ化を完全に自動化する2つの深層学習モデルを提案する。
どちらのモデルも、深い幾何学的学習を通じてパラメータ化し、人間の事前知識を学習された幾何学的パターンに埋め込むように最適化されている。
2次元翼の形状最適化実験を行い、2つのモデルに適用可能なシナリオについて論じる。
論文 参考訳(メタデータ) (2023-05-03T13:45:40Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。