Fugu-MT 論文翻訳(概要): Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning

論文の概要: Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning

arxiv url: http://arxiv.org/abs/2411.19557v2
Date: Fri, 07 Feb 2025 19:50:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 16:44:24.576279
Title: Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning
Title（参考訳）: Update Approximation を用いた極効率低ランク微調整用銀塊の初期化
Authors: Kaustubh Ponkshe, Raghav Singhal, Eduard Gorbunov, Alexey Tumanov, Samuel Horvath, Praneeth Vepakomma,
Abstract要約: 低ランク部分空間内での完全な微調整を近似するLoRA Silver BulletあるいはLoRA-SBを提案する。これらの結果から,低ランク部分空間において,性能を犠牲にすることなく完全な微調整をシミュレートできることが示唆された。
参考スコア（独自算出の注目度）: 13.823795660384262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-rank adapters have become standard for efficiently fine-tuning large language models (LLMs), but they often fall short of achieving the performance of full fine-tuning. We propose a method, LoRA Silver Bullet or LoRA-SB, that approximates full fine-tuning within low-rank subspaces using a carefully designed initialization strategy. We theoretically demonstrate that the architecture of LoRA-XS, which inserts a learnable (r x r) matrix between B and A while keeping other matrices fixed, provides the precise conditions needed for this approximation. We leverage its constrained update space to achieve optimal scaling for high-rank gradient updates while removing the need for hyperparameter tuning. We prove that our initialization offers an optimal low-rank approximation of the initial gradient and preserves update directions throughout training. Extensive experiments across mathematical reasoning, commonsense reasoning, and language understanding tasks demonstrate that our approach exceeds the performance of standard LoRA while using \textbf{27-90} times fewer learnable parameters, and comprehensively outperforms LoRA-XS. Our findings establish that it is possible to simulate full fine-tuning in low-rank subspaces, and achieve significant efficiency gains without sacrificing performance. Our code is publicly available at https://github.com/RaghavSinghal10/lora-sb.
Abstract（参考訳）: 低ランクのアダプタは大規模言語モデル(LLM)を効率的に微調整するための標準となっているが、完全な微調整の性能を達成するには不十分であることが多い。そこで本研究では,低ランク部分空間における完全微調整を,慎重に設計した初期化戦略を用いて近似する手法であるLoRA Silver Bullet(LoRA-SB)を提案する。理論的には、他の行列を固定しながら学習可能な(r x r)行列をBとAの間に挿入するLoRA-XSのアーキテクチャは、この近似に必要な正確な条件を提供する。我々は、その制約された更新空間を利用して、ハイパーパラメータチューニングの必要性を排除しつつ、高階勾配更新のための最適なスケーリングを実現する。我々の初期化は、初期勾配の最適低ランク近似を提供し、トレーニングを通して更新方向を保存することを証明している。数学的推論,コモンセンス推論,言語理解タスクにまたがる広範囲な実験により,我々のアプローチが標準的なLoRAの性能を上回る一方で,‘textbf{27-90} の学習可能なパラメータを少なくし,LoRA-XSを総合的に上回ることを示した。その結果,低ランク部分空間における完全微調整をシミュレートし,性能を損なうことなく大幅な効率向上を実現することが可能であることが判明した。私たちのコードはhttps://github.com/RaghavSinghal10/lora-sb.comで公開されています。

関連論文リスト

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation [85.89510825889168]
効率的な事前学習のための新しい低ランクシステムであるLoRA-Preを紹介する。 LoRA-Pre オンライン線形学習器内のコンパクトな低ランク部分空間に運動量行列を分解する。 Llama アーキテクチャファミリーのモデルを事前学習することで,LoRA-Preの有効性を実証的に検証する。
論文参考訳（メタデータ） (2026-02-27T18:57:06Z)
Beyond SGD, Without SVD: Proximal Subspace Iteration LoRA with Diagonal Fractional K-FAC [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。本研究では,ローランクプロジェクション(SVDLoRA)とローラファインチューニング(LoRAファインタニング)のフルステップでのトレーニングのギャップに対処する。勾配降下のギャップを埋めるメモリ効率の良いサブルーチンであるLoRSumを提案する。
論文参考訳（メタデータ） (2026-02-18T13:41:41Z)
ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning [32.55713482636133]
低ランク適応(LoRA)はこのコストを、低次元の部分空間に重み付けすることで効果的に削減する。この貢献は、連続する低ランクインクリメントからのハイランクウェイト更新を徐々に蓄積することで、これらの制限を扱う。再起動することなく効率よくシームレスな最適化を実現するために、この最適な選択は、元の低ランク行列の列を適切にスケーリングすることによって形成される。
論文参考訳（メタデータ） (2025-10-27T19:59:46Z)
Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文参考訳（メタデータ） (2025-09-24T10:32:50Z)
Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
AltLoRA: Towards Better Gradient Approximation in Low-Rank Adaptation with Alternating Projections [33.897537326268356]
Low-Rank Adaptation (LoRA) は、微調整された大規模言語モデルにおいて、メモリオーバーヘッドを低減する効果的な手法として登場した。低ランク空間で更新が制限されているため、完全な微調整に比べて、しばしば準最適パフォーマンスに悩まされる。共同更新設計による勾配近似の難しさを回避するための交互投影法AltLoRAを提案する。
論文参考訳（メタデータ） (2025-05-18T15:10:38Z)
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment [20.382810396966473]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM) のためのパラメータ効率の良い微調整を可能にする現在の手法は静的特異値分解サブセットを初期化することでLoRAを最適化し、事前学習された知識を最適に活用する。我々はLunderlineoRunderlineA Mixture-of-Experunderlinet (GOAT)を提案する。 GOATはSVD構造化MoEを用いて関連する事前情報を統合し、理論スケーリング係数を導出して最適化を完全微調整MoEと整合させる
論文参考訳（メタデータ） (2025-02-24T06:48:13Z)
Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。 Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文参考訳（メタデータ） (2024-10-25T17:07:13Z)
Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文参考訳（メタデータ） (2024-09-22T11:24:10Z)
LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文参考訳（メタデータ） (2024-07-25T17:57:12Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
Flora: Low-Rank Adapters Are Secretly Gradient Compressors [30.224822087562163]
低ランク適応(LoRA)は、少ないパラメータをトレーニングすることで最適化状態を低減するために提案される。 LoRAは全体の重量更新行列を低ランクに制限し、モデル性能を制限している。本稿では,プロジェクション行列を再サンプリングすることで高階更新を実現する Flora を提案する。
論文参考訳（メタデータ） (2024-02-05T18:50:39Z)
Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文参考訳（メタデータ） (2023-12-06T10:54:34Z)
Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-20T11:56:25Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。