論文の概要: Memory-Efficient Orthogonal Fine-Tuning with Principal Subspace Adaptation
- arxiv url: http://arxiv.org/abs/2505.11235v1
- Date: Fri, 16 May 2025 13:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.082104
- Title: Memory-Efficient Orthogonal Fine-Tuning with Principal Subspace Adaptation
- Title(参考訳): 主部分空間適応を用いたメモリ効率の良い直交微調整
- Authors: Fei Wu, Jia Hu, Geyong Min, Shiqiang Wang,
- Abstract要約: 主部分空間適応を用いたメモリ効率の良い直交微調整(MOFT)を提案する。
直交微調整のメモリフットプリントを大幅に削減しつつ,キーベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 40.69348434971122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by the relentless growth in model parameters, which renders full fine-tuning prohibitively expensive for large-scale deployment, parameter-efficient fine-tuning (PEFT) has emerged as a crucial approach for rapidly adapting large models to a wide range of downstream tasks. Among the PEFT family, orthogonal fine-tuning and its variants have demonstrated remarkable performance by preserving hyperspherical energy, which encodes pairwise angular similarity between neurons. However, these methods are inherently memory-inefficient due to the need to store intermediate activations from multiple full-dimensional sparse matrices. To address this limitation, we propose Memory-efficient Orthogonal Fine-Tuning (MOFT) with principal subspace adaptation. Specifically, we first establish a theoretical condition under which orthogonal transformations within a low-rank subspace preserve hyperspherical energy. Based on this insight, we constrain orthogonal fine-tuning to the principal subspace defined by the top-r components obtained through singular value decomposition and impose an additional constraint on the projection matrix to satisfy the preservation condition. To enhance MOFT's flexibility across tasks, we relax strict orthogonality by introducing two learnable scaling vectors. Extensive experiments on 37 diverse tasks and four models across NLP and CV demonstrate that MOFT consistently outperforms key baselines while significantly reducing the memory footprint of orthogonal fine-tuning.
- Abstract(参考訳): モデルパラメータの絶え間ない成長によって、大規模な展開には不当に微調整が高価になるため、パラメータ効率の良い微調整(PEFT)は、大規模なモデルを広範囲の下流タスクに迅速に適応するための重要なアプローチとして現れてきた。
PEFTファミリーの中では、直交微調整とその変種は超球面エネルギーを保ち、ニューロン間の対角類似性を符号化することで顕著な性能を示した。
しかし、これらの手法は、複数のフル次元スパース行列から中間活性化を格納する必要があるため、本質的にメモリ非効率である。
この制限に対処するために、主部分空間適応を伴うメモリ効率の良い直交微調整(MOFT)を提案する。
具体的には、まず、低ランク部分空間内の直交変換が超球面エネルギーを保存する理論条件を確立する。
この知見に基づき、特異値分解によって得られるトップr成分によって定義される主部分空間に直交微調整を制約し、保存条件を満たすために射影行列に追加の制約を課す。
タスク間のMOFTの柔軟性を高めるために、2つの学習可能なスケーリングベクトルを導入することで厳密な直交性を緩和する。
37の多様なタスクと4つのモデルに対する大規模な実験により、MOFTは、直交微調整のメモリフットプリントを大幅に減らしながら、キーベースラインを一貫して上回ることを示した。
関連論文リスト
- Adaptive Linear Embedding for Nonstationary High-Dimensional Optimization [0.0]
Self-Adaptive embedding REMBO (SA-REMBO) はランダムEMBdding Bayesian Optimization (REMBO) を一般化して複数のランダムガウス埋め込みをサポートする新しいフレームワークである。
インデックス変数は埋め込み選択を制御し、サロゲート内の製品カーネルを介して潜伏潜伏子と共同でモデル化される。
従来のREMBO法や他の低ランクBO法が失敗する合成および実世界の高次元ベンチマークにおいて,本手法の利点を実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T14:18:19Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - Variationally optimizing infinite projected entangled-pair states at large bond dimensions: A split corner transfer matrix renormalization group approach [0.2796197251957244]
本稿では,PEPS層を分離し,新しい環境テンソルを活用することで,精度を保ちながら計算複雑性を低減できる「スプリットCTMRG」アルゴリズムを提案する。
量子格子モデルのベンチマークでは、変動エネルギー最適化のためのかなりのスピードアップが示され、この手法は大規模PEPSシミュレーションに有用である。
論文 参考訳(メタデータ) (2025-02-14T16:59:33Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guarantees [5.399838579600896]
本稿では,メモリ最適化のための2つの補完手法を提案する。
1つのテクニックであるSubset-Normは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
別の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
論文 参考訳(メタデータ) (2024-11-11T16:48:07Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z) - Parametric Level-sets Enhanced To Improve Reconstruction (PaLEnTIR) [0.0]
本稿では,PaLEnTIR(PalenTIR)について紹介する。
キーとなるコントリビューションは、単一のレベルセット関数を利用して、複数コントラストのピースワイズ・コンスタントなオブジェクトを含むシーンを復元する独自の PaLS の定式化である。
論文 参考訳(メタデータ) (2022-04-21T00:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。