論文の概要: EFlat-LoRA: Efficiently Seeking Flat Minima for Better Generalization in Fine-Tuning Large Language Models and Beyond
- arxiv url: http://arxiv.org/abs/2508.00522v1
- Date: Fri, 01 Aug 2025 10:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.842757
- Title: EFlat-LoRA: Efficiently Seeking Flat Minima for Better Generalization in Fine-Tuning Large Language Models and Beyond
- Title(参考訳): EFlat-LoRA: 微調整大規模言語モデルにおけるより効率的な一般化のためのフラットミニマの探索
- Authors: Jiaxin Deng, Qingcheng Zhu, Junbiao Pang, Linlin Yang, Zhongqian Fu, Baochang Zhang,
- Abstract要約: 低ランク適応のための平らなミニマを求めるために、Flat-LoRAとその効率的なバージョンであるEFlat-LoRAを提案する。
EFlat-LoRAはLoRAに匹敵する効率を同時に達成し,性能も向上することを示す。
- 参考スコア(独自算出の注目度): 21.19636109010622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Little research explores the correlation between the expressive ability and generalization ability of the low-rank adaptation (LoRA). Sharpness-Aware Minimization (SAM) improves model generalization for both Convolutional Neural Networks (CNNs) and Transformers by encouraging convergence to locally flat minima. However, the connection between sharpness and generalization has not been fully explored for LoRA due to the lack of tools to either empirically seek flat minima or develop theoretical methods. In this work, we propose Flat-LoRA and its efficient version i.e., EFlat-LoRA, to seek flat minima for LoRA. Concretely, we theoretically demonstrate that perturbations in the full parameter space can be transferred to the low-rank subspace. This approach eliminates the potential interference introduced by perturbations across multiple matrices in the low-rank subspace. Our extensive experiments on large language models and vision-language models demonstrate that EFlat-LoRA achieves optimize efficiency comparable to that of LoRA while simultaneously attaining comparable or even better performance. For example, on the GLUE dataset with RoBERTa-large, EFlat-LoRA outperforms LoRA and full fine-tuning by 1.0% and 0.5% on average, respectively. On vision-language models e.g., Qwen-VL-Chat shows performance improvements of 1.5% and 1.0% on SQA and VizWiz datasets, respectively. These empirical results also verify that the generalization of LoRA is closely related to sharpness, which is omitted by previous methods.
- Abstract(参考訳): 低ランク適応(LoRA)の表現能力と一般化能力の相関についてはほとんど研究されていない。
シャープネス認識最小化(SAM)は、局所平坦なミニマへの収束を促すことにより、畳み込みニューラルネットワーク(CNN)とトランスフォーマーの両方のモデルの一般化を改善する。
しかし、鋭さと一般化の関連性は、実験的に平坦なミニマを求めるツールが不足していたり、理論的な手法が開発されていなかったために、LoRAにとって完全には研究されていない。
本研究では,Flat-LoRAとその効率的なバージョンであるEFlat-LoRAを提案する。
具体的には、全パラメータ空間の摂動が低ランク部分空間に移動可能であることを理論的に証明する。
このアプローチは、低ランク部分空間内の複数の行列にまたがる摂動によってもたらされる潜在的な干渉を取り除く。
大規模言語モデルと視覚言語モデルに関する広範な実験により、EFlat-LoRAはLoRAに匹敵する効率を同時に達成し、同時に同等またはさらに優れた性能が得られることを示した。
例えば、RoBERTa-largeを使用したGLUEデータセットでは、EFlat-LoRAはLoRAとフル微調整をそれぞれ1.0%、0.5%で上回っている。
例えばビジョン言語モデルでは、Qwen-VL-ChatはSQAデータセットとVizWizデータセットでそれぞれ1.5%と1.0%のパフォーマンス改善を示している。
これらの経験的結果は、LoRAの一般化がシャープネスと密接に関連していることも証明している。
関連論文リスト
- LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization [12.504723188498]
Low-Rank Adaptation (LoRA) 法は、トレーニング損失の増加に伴い「二重降下」を示す。
LoRA-MGPO は Momentum-Guided Perturbation Optimization (MGPO) を取り入れた新しい LoRA ベースのフレームワークである
自然言語理解と生成ベンチマークの実験は、LoRA-MGPOがLoRAと最先端PEFT法より優れていることを示した。
論文 参考訳(メタデータ) (2025-02-20T13:14:41Z) - BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - GeLoRA: Geometric Adaptive Ranks For Efficient LoRA Fine-tuning [2.7446241148152253]
微調整された大言語モデル(LLM)は、全てのパラメータを更新する必要があるため、計算集約的である。
Low-Rank Adaptation (LoRA)は、重みのサブセットだけを変更することで効率を向上するが、表現性と計算コストのトレードオフをもたらす。
隠れ状態表現の内在的次元を計算し,LoRAランクを適応的に選択する新しいフレームワークGeLoRAを提案する。
論文 参考訳(メタデータ) (2024-12-12T13:04:54Z) - LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement [5.162783756846019]
ファンデーションモデル(FM)は、タスク固有の微調整によって、多様なタスクにまたがる強力なパフォーマンスを実現する。
低ランク適応 (LoRA) のようなローランク適応 (LoRA) 手法は、少ないパラメータをチューニングするための低ランク行列を導入することで、このコストを削減する。
LoRA-FAIRは計算と通信の効率を維持し、最先端の手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2024-11-22T14:19:01Z) - Exploring Gradient Subspaces: Addressing and Overcoming LoRA's Limitations in Federated Fine-Tuning of Large Language Models [19.533062623518674]
本稿ではLow-Rank Adaptation (LoRA)を用いたFLフレームワークの収束と性能保証を批判的に分析する。
直接重み付けはLoRAベースの戦略よりも優れており、微調整モデルでは優れた性能が得られることを示す。
以上の結果から,直接重み付けと併用したGaLoreの方が,FlexLoRAやFFA-LoRAといったフェデレートされたLoRA法よりも,テキストや画像のモダリティが優れていることが示唆された。
論文 参考訳(メタデータ) (2024-10-30T15:23:44Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。