論文の概要: StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold
- arxiv url: http://arxiv.org/abs/2510.01938v1
- Date: Thu, 02 Oct 2025 11:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.120495
- Title: StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold
- Title(参考訳): StelLA:Stiefel Manifoldを用いた低ランク適応における部分空間学習
- Authors: Zhizhong Li, Sina Sajadmanesh, Jingtao Li, Lingjuan Lyu,
- Abstract要約: 低ランク適応(LoRA)は大規模事前訓練モデルのパラメータ効率向上手法として広く採用されている。
3要素分解$U!SVtop$を使用するLoRAの幾何学的拡張を提案する。
- 参考スコア(独自算出の注目度): 51.93627542334909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank adaptation (LoRA) has been widely adopted as a parameter-efficient technique for fine-tuning large-scale pre-trained models. However, it still lags behind full fine-tuning in performance, partly due to its insufficient exploitation of the geometric structure underlying low-rank manifolds. In this paper, we propose a geometry-aware extension of LoRA that uses a three-factor decomposition $U\!SV^\top$. Analogous to the structure of singular value decomposition (SVD), it separates the adapter's input and output subspaces, $V$ and $U$, from the scaling factor $S$. Our method constrains $U$ and $V$ to lie on the Stiefel manifold, ensuring their orthonormality throughout the training. To optimize on the Stiefel manifold, we employ a flexible and modular geometric optimization design that converts any Euclidean optimizer to a Riemannian one. It enables efficient subspace learning while remaining compatible with existing fine-tuning pipelines. Empirical results across a wide range of downstream tasks, including commonsense reasoning, math and code generation, image classification, and image generation, demonstrate the superior performance of our approach against the recent state-of-the-art variants of LoRA. Code is available at https://github.com/SonyResearch/stella.
- Abstract(参考訳): 低ランク適応(LoRA)は大規模事前訓練モデルのパラメータ効率向上手法として広く採用されている。
しかし、幾何構造が低ランク多様体の根底にあるため、完全な微調整の遅れがまだ残っている。
本稿では,3要素分解を$U\!で行うLoRAの幾何学的拡張を提案する。
SV^\top$。
特異値分解(SVD)の構造に類似して、アダプタの入力と出力のサブスペースを$V$と$U$と、スケーリング係数$S$から分離する。
我々の方法では、スティーフェル多様体上に位置するために$U$と$V$を制約し、トレーニングを通してそれらの正則性を保証する。
スティーフェル多様体上で最適化するために、任意のユークリッド最適化をリーマン多様体に変換するフレキシブルでモジュラーな幾何最適化設計を用いる。
既存の微調整パイプラインとの互換性を維持しながら、効率的なサブスペース学習を可能にする。
一般的な推論,数学とコード生成,画像分類,画像生成など,さまざまなダウンストリームタスクにまたがる実験結果から,最近のLoRAの最先端版に対して,我々のアプローチが優れていることを示す。
コードはhttps://github.com/SonyResearch/stella.comで入手できる。
関連論文リスト
- 3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs [20.28912929805946]
3BASiL-TMは大規模言語モデルの分解に$(mathbfS + mathbfLR)$の効率的なワンショットポストトレーニング手法である。
実験の結果, 3BASiL-TM は LLaMA-8B モデルに対して WikiText2 のパープレキシティギャップを (2:4 Sparse + 64 LR) 構成で30% 以上低減することがわかった。
提案手法は,SOTA $(mathbfS + mathbfLR)と比較してA100 GPU上で2.5倍高速な圧縮実行を実現する。
論文 参考訳(メタデータ) (2026-03-02T02:16:46Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning [13.823795660384262]
低ランク部分空間内での完全な微調整を近似するLoRA Silver BulletあるいはLoRA-SBを提案する。
これらの結果から,低ランク部分空間において,性能を犠牲にすることなく完全な微調整をシミュレートできることが示唆された。
論文 参考訳(メタデータ) (2024-11-29T09:10:30Z) - Parameter-Efficient Fine-Tuning via Circular Convolution [29.442868470645482]
Low-Rank Adaptation (LoRA)は、微調整された大規模な基盤モデルで人気を博している。
本稿では,Circular Convolution Adaptation (C$3$A)を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:12:46Z) - Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。
本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文 参考訳(メタデータ) (2024-02-04T05:05:43Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - DASHA: Distributed Nonconvex Optimization with Communication
Compression, Optimal Oracle Complexity, and No Client Synchronization [77.34726150561087]
我々は,分散最適化問題に対する新しい手法であるDASHAを開発し,解析する。
MARINAとは異なり、新しいDASHAとDASHA-MVRは圧縮ベクターのみを送信し、ノードを同期しないため、学習をより実用的なものにしている。
論文 参考訳(メタデータ) (2022-02-02T20:10:40Z) - Reusing Combinatorial Structure: Faster Iterative Projections over
Submodular Base Polytopes [7.734726150561089]
離散的視点と連続的な視点の両方を用いて投影の計算を高速化するツールキットを開発した。
基数に基づく部分モジュラーポリトープの特別の場合、あるブレグマン射影の計算ランタイムを$Omega(n/log(n))$の係数で改善する。
論文 参考訳(メタデータ) (2021-06-22T17:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。