論文の概要: Bi-LoRA: Efficient Sharpness-Aware Minimization for Fine-Tuning Large-Scale Models
- arxiv url: http://arxiv.org/abs/2508.19564v1
- Date: Wed, 27 Aug 2025 04:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.490759
- Title: Bi-LoRA: Efficient Sharpness-Aware Minimization for Fine-Tuning Large-Scale Models
- Title(参考訳): Bi-LoRA:超小型モデルのための高効率シャープネス認識最小化
- Authors: Yuhang Liu, Tao Li, Zhehao Huang, Zuopeng Yang, Xiaolin Huang,
- Abstract要約: シャープネス・アウェアの最小化(SAM)は平坦な最小値を求めることで一般化を改善するのに有効であることが証明されている。
本稿では、SAMの対向重み摂動をモデル化するための補助的なLoRAモジュールを導入する双方向低ランク適応(Bi-LoRA)を提案する。
Bi-LoRAは、メモリ効率を保ちながらフラットなミニマを実現するために、より広いシャープさをキャプチャする。
- 参考スコア(独自算出の注目度): 33.28146211296799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large-scale pre-trained models with limited data presents significant challenges for generalization. While Sharpness-Aware Minimization (SAM) has proven effective in improving generalization by seeking flat minima, its substantial extra memory and computation overhead make it impractical for large models. Integrating SAM with parameter-efficient fine-tuning methods like Low-Rank Adaptation (LoRA) is a promising direction. However, we find that directly applying SAM to LoRA parameters limits the sharpness optimization to a restricted subspace, hindering its effectiveness. To address this limitation, we propose Bi-directional Low-Rank Adaptation (Bi-LoRA), which introduces an auxiliary LoRA module to model SAM's adversarial weight perturbations. It decouples SAM's weight perturbations from LoRA optimization: the primary LoRA module adapts to specific tasks via standard gradient descent, while the auxiliary module captures the sharpness of the loss landscape through gradient ascent. Such dual-module design enables Bi-LoRA to capture broader sharpness for achieving flatter minima while remaining memory-efficient. Another important benefit is that the dual design allows for simultaneous optimization and perturbation, eliminating SAM's doubled training costs. Extensive experiments across diverse tasks and architectures demonstrate Bi-LoRA's efficiency and effectiveness in enhancing generalization.
- Abstract(参考訳): 限られたデータを持つ微調整された大規模事前学習モデルでは、一般化の重要な課題が示される。
Sharpness-Aware Minimization (SAM) は、平らなミニマを求めることで一般化を改善するのに有効であることが証明されているが、そのかなりのメモリと計算オーバーヘッドは、大きなモデルでは実用的ではない。
Low-Rank Adaptation (LoRA)のようなパラメータ効率のよい微調整手法とSAMを統合することは有望な方向である。
しかし、SAMをLoRAパラメータに直接適用すると、シャープネスの最適化は制限された部分空間に制限され、その効果が妨げられる。
この制限に対処するために、SAMの対向重み摂動をモデル化するための補助的なLoRAモジュールを導入する双方向低ランク適応(Bi-LoRA)を提案する。
主LoRAモジュールは標準勾配降下により特定のタスクに適応し、補助モジュールは勾配上昇によって損失景観の鋭さを捉える。
このようなデュアルモジュール設計により、Bi-LoRAはメモリ効率を保ちながらフラットなミニマを実現するためにより広いシャープさを捉えることができる。
もう一つの重要な利点は、二重設計が同時最適化と摂動を可能にし、SAMの2倍の訓練コストを削減できることである。
多様なタスクやアーキテクチャにわたる大規模な実験により、Bi-LoRAの効率性と一般化の促進効果が示された。
関連論文リスト
- EFlat-LoRA: Efficiently Seeking Flat Minima for Better Generalization in Fine-Tuning Large Language Models and Beyond [21.19636109010622]
低ランク適応のための平らなミニマを求めるために、Flat-LoRAとその効率的なバージョンであるEFlat-LoRAを提案する。
EFlat-LoRAはLoRAに匹敵する効率を同時に達成し,性能も向上することを示す。
論文 参考訳(メタデータ) (2025-08-01T10:59:49Z) - Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment [20.382810396966473]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM) のためのパラメータ効率の良い微調整を可能にする
現在の手法は静的特異値分解サブセットを初期化することでLoRAを最適化し、事前学習された知識を最適に活用する。
我々はLunderlineoRunderlineA Mixture-of-Experunderlinet (GOAT)を提案する。
GOATはSVD構造化MoEを用いて関連する事前情報を統合し、理論スケーリング係数を導出して最適化を完全微調整MoEと整合させる
論文 参考訳(メタデータ) (2025-02-24T06:48:13Z) - BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement [5.162783756846019]
ファンデーションモデル(FM)は、タスク固有の微調整によって、多様なタスクにまたがる強力なパフォーマンスを実現する。
低ランク適応 (LoRA) のようなローランク適応 (LoRA) 手法は、少ないパラメータをチューニングするための低ランク行列を導入することで、このコストを削減する。
LoRA-FAIRは計算と通信の効率を維持し、最先端の手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2024-11-22T14:19:01Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。