論文の概要: When Is Rank-1 Enough? Geometry-Guided Initialization for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.01522v1
- Date: Mon, 02 Feb 2026 01:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.832801
- Title: When Is Rank-1 Enough? Geometry-Guided Initialization for Parameter-Efficient Fine-Tuning
- Title(参考訳): ランク1が十分であるのはいつか?パラメータ効率の良いファインチューニングのための幾何誘導初期化
- Authors: Haoran Zhao, Soyeon Caren Han, Eduard Hovy,
- Abstract要約: 低ランク設定、特に Rank-1 LoRA は不安定であることが多い。
そこで我々はGap-Initを提案し、ランク1のLoRA方向を小さなキャリブレーションセットから推定したモダリティギャップベクトルと整列する。
我々の結果は、極端に低いランクの限界において、初期アライメントはランクそのものと同じくらい重要であることを示唆している。
- 参考スコア(独自算出の注目度): 18.50038551163168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) is a standard way to adapt multimodal large language models, yet extremely low-rank settings -- especially rank-1 LoRA -- are often unstable. We show that this instability is not solely due to limited capacity: in the rank-1 regime, optimization is highly sensitive to the update direction. Concretely, pretrained vision and text features form mismatched anisotropic regions, yielding a dominant "gap" direction that acts like a translation component and disproportionately steers early gradients under rank-1 constraints. Analyzing pretrained representations, we identify a modality-gap axis that dominates early gradient flow, while a random rank-1 initialization is unlikely to align with it, leading to weak gradients and training collapse. We propose Gap-Init, a geometry-aware initialization that aligns the rank-1 LoRA direction with an estimated modality-gap vector from a small calibration set, while keeping the initial LoRA update zero. Across multiple vision-language tasks and backbones, Gap-Init consistently stabilizes rank-1 training and can match or outperform strong rank-8 baselines. Our results suggest that at the extreme low-rank limit, initial alignment can matter as much as rank itself.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)はマルチモーダルな言語モデルを適応させる標準的な方法であるが、非常に低ランクな設定(特にランク-1 LoRA)は不安定であることが多い。
この不安定性は限られたキャパシティのためではなく、ランク1のシステムでは、最適化は更新方向に対して非常に敏感である。
具体的には、事前訓練された視覚とテキストの特徴は、不整合異方性領域を形成し、翻訳要素のように振る舞う支配的な「ギャップ」方向となり、ランク1の制約の下で早期の勾配を不均等に制御する。
事前訓練された表現を解析し、初期勾配流を支配下に置くモダリティギャップ軸を同定する一方、ランダムランク1の初期化はそれと一致しそうになく、弱い勾配とトレーニング崩壊をもたらす。
初期LORA更新をゼロに保ちながら、ランク1のLORA方向を小さなキャリブレーションセットから推定したモダリティギャップベクトルと整列する幾何学的初期化であるGap-Initを提案する。
複数の視覚言語タスクとバックボーンにわたって、Gap-Initは一貫してランク1のトレーニングを安定させ、強いランク8のベースラインにマッチまたは上回ることができる。
我々の結果は、極端に低いランクの限界において、初期アライメントはランクそのものと同じくらい重要であることを示唆している。
関連論文リスト
- Regularized Low-Rank Adaptation for Few-Shot Organ Segmentation [17.875098424936542]
Low-Rank Adaptation (LoRA) は、低次元部分空間において適応が本質的に発生するという仮定に基づく顕著なアプローチである。
本稿では,適応時の内因性階位を動的に調整する医用画像セグメンテーションのための新しいアプローチを提案する。
提案手法は実写数発の微調整で評価され,まず標準のLoRAおよび他のPEFT法と比較する。
論文 参考訳(メタデータ) (2025-07-21T16:51:53Z) - Beyond Low-Rank Tuning: Model Prior-Guided Rank Allocation for Effective Transfer in Low-Data and Large-Gap Regimes [9.4848188271008]
Low-Rank Adaptation (LoRA) は、完全に微調整された基礎モデルに匹敵する性能を維持しながら、計算コストを削減できることが証明されている。
現在の適応LoRA法は、ランクを動的に拡張または選択的に割り当てることで、この制限を克服しようとする。
本稿では, 既訓練重量行列の安定なランクを, 階層的ランクアロケーションの自然な先行として活用する新しいフレームワークSR-LoRAを紹介する。
論文 参考訳(メタデータ) (2025-06-30T23:54:23Z) - PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training [21.695928776150808]
アクセラレータのメモリとネットワークの制約は、大きな言語モデルをトレーニングする際の主要なボトルネックとして現れている。
PLUMAGE: Probabilistic Low rank Unbiased Minimum v Ariance Gradient Estorを提案する。
PLUMAGEは,モデル全体で平均33%,GLUEベンチマークで平均28%,GaloREと同様の計算量およびメモリフットプリントで平均33%の事前トレーニング評価損失に対して,フルランク最適化のギャップを縮めることを実証的に実証した。
論文 参考訳(メタデータ) (2025-05-23T19:17:55Z) - LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization [16.360816770124874]
LoRA-MGPO は Momentum-Guided Perurbation Optimization (MGPO) を組み込んだフレームワークである。
MGPOは勾配状態から運動量ベクトルを誘導する運動力学を安定化させる。
実験の結果, LoRA-MGPO は LoRA や他のPEFT 法よりも優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-02-20T13:14:41Z) - HRP: High-Rank Preheating for Superior LoRA Initialization [58.3319586613105]
ハイランク予熱 (HRP) はローランク適応 (LoRA) を数ステップで運転する。
HRPは様々なモデルやタスクにおいてLoRAの有効性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-11T17:59:35Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Towards Resolving the Implicit Bias of Gradient Descent for Matrix
Factorization: Greedy Low-Rank Learning [19.82453283089643]
マトリックスファクタリゼーションは、降下勾配の暗黙の正規化を調べるためのシンプルで自然なテストベッドです。
深さ2行列分解では、無限小初期化を伴う流れは単純な階数最小化アルゴリズムと数学的に等価であることを示す。
論文 参考訳(メタデータ) (2020-12-17T18:57:01Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。