Fugu-MT 論文翻訳(概要): FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models

論文の概要: FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models

arxiv url: http://arxiv.org/abs/2505.17967v3
Date: Fri, 26 Sep 2025 17:42:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-29 16:35:18.859376
Title: FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models
Title（参考訳）: 大規模言語モデルの低ランク適応最適化のためのFFTに基づく動的部分空間選択
Authors: Ionut-Vlad Modoranu, Mher Safaryan, Erik Schultheis, Max Ryabinin, Artem Chumachenko, Dan Alistarh,
Abstract要約: 低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
参考スコア（独自算出の注目度）: 49.397861654088636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-rank optimization has emerged as a promising direction in training large language models (LLMs) to improve running time and reduce the memory usage of adaptive optimizers by constraining learning to a lower-dimensional space. Prior work typically projects gradients of linear layers using approaches based on Singular Value Decomposition (SVD) or QR-decomposition. Applying these techniques individually to each layer in large models is computationally expensive and incurs additional memory costs due to storing the projection matrices. In this work, we propose a computationally efficient and conceptually simple, two-step procedure to approximate SVD/QR-based gradient projections into lower-dimensional spaces by using a predefined orthogonal matrix of the Discrete Cosine Transform (DCT). We dynamically select columns from the DCT matrix based on their alignment with the gradient of each layer. The effective projection matrices are obtained via a simple matmul with the DCT matrix in $O(n^3)$ time, followed by a lightweight sorting step to identify the most relevant basis vectors. For large layers, DCT can be computed via Makhoul's $N$-point algorithm based on Fast Fourier Transform (FFT) in $O(n^2 \log(n))$ time. Due to the predefined nature of the orthogonal bases, they are computed once at the start of training. Our numerical experiments on both pre-training and fine-tuning tasks demonstrate the effectiveness of our dual strategy in approximating optimal low-rank projections, obtaining an approach with rank-independent running time that matches the performance of costly SVD/QR-based methods while achieving faster runtime and reduced memory usage by up to $25\%$ across different model sizes. Our code is available at \href{https://github.com/IST-DASLab/ISTA-DASLab-Optimizers/tree/main/ista_daslab_optimizers/fft_low_rank}{ISTA-DASLab-Optimizers}.
Abstract（参考訳）: 低ランク最適化は、大規模言語モデル(LLM)をトレーニングする上で有望な方向として現れ、実行時間の改善と、低次元空間への学習の制限による適応最適化器のメモリ使用量の削減を実現している。従来の作業では、Singular Value Decomposition (SVD) やQR-decomposition(QR-decomposition)に基づいたアプローチを使用して、線形レイヤの勾配を計画する。これらのテクニックを大きなモデルで各層に個別に適用することは計算コストが高く、投影行列を保存するために追加のメモリコストを発生させる。本研究では, 離散コサイン変換(DCT)の直交行列を用いて, SVD/QRベースの勾配射影を低次元空間に近似する, 計算効率が高く, 概念的に2段階の手順を提案する。 DCT行列から各層の勾配に順応した列を動的に選択する。有効射影行列は、DCT行列を$O(n^3)$時間で持つ単純な行列を用いて得られる。大きな層の場合、DCTはMakhoulの$N$-pointアルゴリズムで$O(n^2 \log(n))$ timeでFFT(Fast Fourier Transform)に基づいて計算できる。直交基底の事前定義された性質のため、訓練開始時に一度計算される。学習前タスクと微調整タスクの両方に関する数値実験により、最適な低ランクプロジェクションを近似し、コストのかかるSVD/QRベースの手法の性能に匹敵するランクに依存しないランニングタイムでアプローチし、高速な実行を実現し、異なるモデルサイズで最大25\%のメモリ使用量削減を実現するという2つの戦略の有効性が示された。我々のコードは \href{https://github.com/IST-DASLab/ISTA-DASLab-Optimizers/tree/main/ista_daslab_optimizers/fft_low_rank}{ISTA-DASLab-Optimizers} で利用可能です。

関連論文リスト

A Minimalist Optimizer Design for LLM Pretraining [31.996047271119156]
大規模言語モデルのトレーニングは通常、Adamのような適応型に依存します。 GaLore FiraやAPOLLOといった最近の研究は、メモリ消費を減らすために、状態圧縮型を提案した。本研究では,LLMプレトレーニングにおける最先端性能を維持するために本当に必要となる,最小限の状態量について検討する。
論文参考訳（メタデータ） (2025-06-20T00:10:35Z)
Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。 SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文参考訳（メタデータ） (2024-10-30T12:08:30Z)
PMaF: Deep Declarative Layers for Principal Matrix Features [37.662505982849844]
球面上の最小二乗(LESS)と暗黙の固有分解(IED)の2つの微分可能な深い宣言層を探索する。 LESSは、高次元行列から支配的な情報を含む低次元ベクトルでデータ特徴を表現するのに使うことができる。 IEDは、高次元行列から支配的な情報を含む低次元ベクトルでデータ特徴を表現するのに用いられる。
論文参考訳（メタデータ） (2023-06-26T15:13:36Z)
Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文参考訳（メタデータ） (2023-05-23T04:12:55Z)
Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文参考訳（メタデータ） (2022-01-31T13:02:41Z)
Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文参考訳（メタデータ） (2021-09-10T07:01:15Z)
Why Approximate Matrix Square Root Outperforms Accurate SVD in Global Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-05-06T08:03:45Z)
On the Efficient Implementation of the Matrix Exponentiated Gradient Algorithm for Low-Rank Matrix Optimization [26.858608065417663]
スペクトル上の凸最適化は、機械学習、信号処理、統計学に重要な応用がある。低ランク行列による最適化に適したMEGの効率的な実装を提案し、各イテレーションで単一の低ランクSVDのみを使用する。また,本手法の正しい収束のための効率よく計算可能な証明書も提供する。
論文参考訳（メタデータ） (2020-12-18T19:14:51Z)
Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。 SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-04-20T02:40:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。