論文の概要: Strategic Over-Parameterization for Generalizable Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2605.16470v1
- Date: Fri, 15 May 2026 12:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.500777
- Title: Strategic Over-Parameterization for Generalizable Low-Rank Adaptation
- Title(参考訳): 一般化可能な低ランク適応のための戦略的過パラメータ化
- Authors: Jing Gao, Zhong-Yi Lu, Pan Zhang, Ze-Feng Gao,
- Abstract要約: 大規模言語モデルへの完全な微調整による下流タスクへの適応は、計算とメモリの要求のため、ますます現実的ではない。
LoRA-Overは単純な原則に基づくフレームワークで、トレーニング中に最適化の風景を豊かにし、推論時に豊かにする。
LLaMA 2-7B と LLaMA 3.1-8B を用いた言語理解 (GLUE, T5-Base), 対話 (MT-Bench), 算術的推論 (GSM8K), コード生成 (HumanEval) に基づく LoRA-Over の評価を行った。
- 参考スコア(独自算出の注目度): 14.867641913391779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large language models (LLMs) to downstream tasks via full fine-tuning is increasingly impractical due to its computational and memory demands. Parameter-efficient fine-tuning (PEFT) approaches such as Low-Rank Adaptation (LoRA) mitigate this by confining updates to a compact set of trainable parameters, but this aggressive reduction often sacrifices generalization, especially under transfer across heterogeneous tasks and domains. We revisit the tension between parameter efficiency and adaptation capacity, and ask whether the two are truly at odds. We answer in the negative by introducing LoRA-Over, a framework grounded in a simple principle: enrich the optimization landscape during training, then collapse the enrichment at inference. LoRA-Over injects auxiliary parameters into the low-rank adapters during training to broaden the effective hypothesis space, and through a decomposition-based reformulation folds them back into a standard low-rank structure with negligible reconstruction error, keeping inference cost identical to vanilla LoRA. Since not all weight matrices benefit equally from added capacity, we further propose two scheduling strategies, one statically predefined and one dynamically determined at runtime, that direct extra capacity where most needed. We evaluate LoRA-Over on language understanding (GLUE, T5-Base), dialogue (MT-Bench), arithmetic reasoning (GSM8K), and code generation (HumanEval), using LLaMA 2-7B and LLaMA 3.1-8B. Across all benchmarks and scales, LoRA-Over consistently outperforms vanilla LoRA, showing that principled over-parameterization designed to vanish at inference is an effective lever for improving PEFT generalization. Code will be released upon acceptance.
- Abstract(参考訳): 大規模言語モデル(LLM)を完全な微調整によって下流タスクに適応させることは、計算とメモリの要求のため、ますます現実的ではない。
Low-Rank Adaptation (LoRA) のようなパラメータ効率のよい微調整(PEFT)アプローチは、訓練可能なパラメータのコンパクトな集合に更新することでこれを緩和するが、この積極的な削減は一般化を犠牲にすることが多く、特に不均一なタスクやドメイン間での移動においてである。
パラメータ効率と適応能力の緊張関係を再考し、両者が真に不一致であるかどうかを問う。
LoRA-Overは、トレーニング中に最適化ランドスケープを豊かにし、推論時にリッチ化を崩壊させるという、シンプルな原則に基づくフレームワークです。
LoRA-Overは、トレーニング中に低ランクアダプタに補助パラメータを注入し、有効仮説空間を拡大し、分解に基づく再構成により、それらを標準の低ランク構造に折り返し、無視可能な再構成誤差を持ち、バニラ・ロラと同一の推論コストを維持する。
すべての重み行列が付加能力から等しく恩恵を受けるわけではないので、我々はさらに2つのスケジューリング戦略を提案している。
LLaMA 2-7B と LLaMA 3.1-8B を用いて,言語理解 (GLUE, T5-Base), 対話 (MT-Bench), 算術推論 (GSM8K), コード生成 (HumanEval) に基づく LoRA-Over の評価を行った。
すべてのベンチマークとスケールで、LoRA-Overは一貫してバニラ・ロラよりも優れており、推論時に消滅するように設計された原則化された過パラメータ化はPEFTの一般化を改善する効果的なレバーであることを示している。
コードは受理時にリリースされる。
関連論文リスト
- MSPLoRA: A Multi-Scale Pyramid Low-Rank Adaptation for Efficient Model Fine-Tuning [5.412348391086257]
我々は,グローバル共有ロラ,ミッドレベル共有ロラ,レイヤ特化ロラを導入して,グローバルパターン,中間レベル特徴,きめ細かい情報をキャプチャするMPPLoRAを提案する。
様々なNLPタスクの実験により、MPPLoRAはトレーニング可能なパラメータの数を著しく減らしながら、より効率的な適応とより良い性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T07:01:50Z) - GeLoRA: Geometric Adaptive Ranks For Efficient LoRA Fine-tuning [2.7446241148152253]
微調整された大言語モデル(LLM)は、全てのパラメータを更新する必要があるため、計算集約的である。
Low-Rank Adaptation (LoRA)は、重みのサブセットだけを変更することで効率を向上するが、表現性と計算コストのトレードオフをもたらす。
隠れ状態表現の内在的次元を計算し,LoRAランクを適応的に選択する新しいフレームワークGeLoRAを提案する。
論文 参考訳(メタデータ) (2024-12-12T13:04:54Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-13T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。