論文の概要: SVD-Free Low-Rank Adaptive Gradient Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17967v1
- Date: Fri, 23 May 2025 14:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.159585
- Title: SVD-Free Low-Rank Adaptive Gradient Optimization for Large Language Models
- Title(参考訳): 大規模言語モデルに対するSVDフリー低ランク適応勾配最適化
- Authors: Ionut-Vlad Modoranu, Mher Safaryan, Erik Schultheis, Dan Alistarh,
- Abstract要約: 低次元空間へのSVDに基づく勾配投影を近似するための2段階の手順を提案する。
事前学習と微調整の両方に関する実験は、我々の二重戦略の有効性を実証している。
- 参考スコア(独自算出の注目度): 37.60342078872549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank optimization has emerged as a promising direction in training large language models (LLMs) to reduce the memory usage of adaptive optimizers by constraining learning to a lower-dimensional space. Prior work typically projects gradients of linear layers using approaches based on Singular Value Decomposition (SVD). However, applying SVD-based procedures individually to each layer in large models is computationally expensive and incurs additional memory costs due to storing the projection matrices. In this work, we propose a computationally efficient and conceptually simple two-step procedure to approximate SVD-based gradient projections into lower-dimensional spaces. First, we construct a complete orthogonal basis using predefined orthogonal matrices of the Discrete Cosine Transform (DCT). Second, we adaptively select basis columns based on their alignment with the gradient of each layer. Each projection matrix in our method is obtained via a single matrix multiplication followed by a lightweight sorting step to identify the most relevant basis vectors. Due to the predefined nature of the orthogonal bases, they are computed once at the start of training. During training, we store only the indices of the selected columns, avoiding the need to store full projection matrices for each layer. Our numerical experiments on both pre-training and fine-tuning tasks demonstrate the effectiveness of our dual strategy in approximating optimal low-rank projections, matching the performance of costly SVD-based methods while achieving faster runtime and reduced memory usage.
- Abstract(参考訳): 低ランク最適化は、学習を低次元空間に制限することで適応最適化器のメモリ使用量を減らすため、大規模言語モデル(LLM)のトレーニングにおいて有望な方向として現れてきた。
従来の作業は通常、Singular Value Decomposition(SVD)に基づいたアプローチを使用して、線形層の勾配を計画する。
しかし、SVDベースのプロシージャを大規模モデルの各層に個別に適用することは計算コストが高く、プロジェクション行列を保存するために追加のメモリコストが発生する。
本研究では,SVDに基づく勾配投影を低次元空間に近似するための,計算効率が高く,概念的に単純な2段階の手順を提案する。
まず、離散コサイン変換(DCT)の事前定義された直交行列を用いて完全な直交基底を構築する。
第2に,各層の勾配との整合性に基づく基底列を適応的に選択する。
提案手法における各プロジェクション行列は, 1 つの行列乗法により得られる。
直交基底の事前定義された性質のため、訓練開始時に一度計算される。
トレーニング中、選択した列のインデックスのみを格納し、各レイヤに完全なプロジェクション行列を保存する必要がなくなる。
学習前タスクと微調整タスクの両方に関する数値実験により,高速な実行とメモリ使用量の削減を図りながら,コストのかかるSVDベースの手法の性能を一致させるとともに,最適な低ランクプロジェクションを近似する2つの戦略の有効性が示された。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - PMaF: Deep Declarative Layers for Principal Matrix Features [37.662505982849844]
球面上の最小二乗(LESS)と暗黙の固有分解(IED)の2つの微分可能な深い宣言層を探索する。
LESSは、高次元行列から支配的な情報を含む低次元ベクトルでデータ特徴を表現するのに使うことができる。
IEDは、高次元行列から支配的な情報を含む低次元ベクトルでデータ特徴を表現するのに用いられる。
論文 参考訳(メタデータ) (2023-06-26T15:13:36Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - On the Efficient Implementation of the Matrix Exponentiated Gradient
Algorithm for Low-Rank Matrix Optimization [26.858608065417663]
スペクトル上の凸最適化は、機械学習、信号処理、統計学に重要な応用がある。
低ランク行列による最適化に適したMEGの効率的な実装を提案し、各イテレーションで単一の低ランクSVDのみを使用する。
また,本手法の正しい収束のための効率よく計算可能な証明書も提供する。
論文 参考訳(メタデータ) (2020-12-18T19:14:51Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。