Fugu-MT 論文翻訳(概要): LoRA Dropout as a Sparsity Regularizer for Overfitting Control

論文の概要: LoRA Dropout as a Sparsity Regularizer for Overfitting Control

arxiv url: http://arxiv.org/abs/2404.09610v1
Date: Mon, 15 Apr 2024 09:32:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 12:50:12.959501
Title: LoRA Dropout as a Sparsity Regularizer for Overfitting Control
Title（参考訳）: オーバーフィッティング制御のためのスペーサ正規化器としてのLoRAドロップアウト
Authors: Yang Lin, Xinyu Ma, Xu Chu, Yujie Jin, Zhibang Yang, Yasha Wang, Hong Mei,
Abstract要約: そこで本研究では,LoRA方式のドロップアウト機構を提案する。適切な空間性は、経験的リスクと一般化リスクのギャップを狭めるのに役立ちます。
参考スコア（独自算出の注目度）: 18.992276878667997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parameter-efficient fine-tuning methods, represented by LoRA, play an essential role in adapting large-scale pre-trained models to downstream tasks. However, fine-tuning LoRA-series models also faces the risk of overfitting on the training dataset, and yet there's still a lack of theoretical guidance and practical mechanism to control overfitting on LoRA-based PEFT methods. In this paper, we propose a LoRA Dropout mechanism for the LoRA-based methods by introducing random noises to the learnable low-rank matrices and increasing parameter sparsity. We then demonstrate the theoretical mechanism of our LoRA Dropout mechanism from the perspective of sparsity regularization by providing a generalization error bound under this framework. Theoretical results show that appropriate sparsity would help tighten the gap between empirical and generalization risks and thereby control overfitting. Furthermore, based on the LoRA Dropout framework, we introduce a test-time ensemble strategy and provide theoretical evidence demonstrating that the ensemble method can further compress the error bound, and lead to better performance during inference time. Extensive experiments on various NLP tasks provide practical validations of the effectiveness of our LoRA Dropout framework in improving model accuracy and calibration.
Abstract（参考訳）: LoRAで表されるパラメータ効率のよい微調整法は、下流タスクに大規模な事前学習モデルを適用する上で重要な役割を担っている。しかし、微調整のLoRAシリーズモデルもまた、トレーニングデータセットに過剰適合するリスクに直面していますが、LoRAベースのPEFTメソッドのオーバーフィットを制御するための理論的ガイダンスと実践的なメカニズムが不足しています。本稿では,学習可能な低ランク行列にランダムノイズを導入し,パラメータ幅を増大させることにより,LoRAに基づくLoRAドロップアウト機構を提案する。次に, この枠組みの下での一般化誤差を提供することにより, 空間正規化の観点からLoRAドロップアウト機構の理論機構を実証する。理論的には、適切なスパーシリティは経験的リスクと一般化リスクのギャップを狭めるのに役立ち、それによってオーバーフィッティングを制御できることが示されている。さらに,LoRAのDropoutフレームワークをベースとして,テスト時間アンサンブル戦略を導入し,アンサンブル法がエラー境界をさらに圧縮し,推論時の性能向上につながることを示す理論的証拠を提供する。各種NLPタスクに対する大規模な実験により,モデル精度とキャリブレーション向上のための LoRA Dropout フレームワークの有効性が実証された。

関連論文リスト

Position: Pause Recycling LoRAs and Prioritize Mechanisms to Uncover Limits and Effectiveness [6.3575026653686315]
ローランクアダプタ(LoRA)のマージやルーティングは,大規模言語モデルの拡張手段として人気がある。本稿は,新たなマージアルゴリズムやルーティングアルゴリズムの開発から,LoRAの再利用が本当に効果的である条件の理解へと,研究コミュニティの焦点を移すことを主張する。
論文参考訳（メタデータ） (2025-06-16T13:35:22Z)
BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文参考訳（メタデータ） (2025-02-19T10:33:22Z)
RepLoRA: Reparameterizing Low-Rank Adaptation via the Perspective of Mixture of Experts [37.43961020113692]
低ランク適応 (LoRA) は、大規模基盤モデルを微調整するための強力な手法として登場した。本稿では,LoRAモデルとMixture of Expertsモデルとの関連性を検討することによって,ロラの理論解析を行う。
論文参考訳（メタデータ） (2025-02-05T10:03:09Z)
Robust Federated Finetuning of LLMs via Alternating Optimization of LoRA [14.789886179102425]
BERT-Efficient Fine-Tuning (PEFT) 法では、ローランド適応 (LoRA) は計算と通信のコストを削減し、フェデレーショントレーニングを最適化する。ファインチューンなLoRAアダプタに交互に最適化を施した,フェデレートされたフレームワークであるRoLoRAを提案する。
論文参考訳（メタデータ） (2025-02-03T19:02:00Z)
SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:00:41Z)
LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文参考訳（メタデータ） (2024-10-28T17:14:01Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models [13.56631686493347]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示すが、新しいタスクを学ぶ際に破滅的な忘れに直面している。本稿では,LoRA 構造上の部分空間正規化手法である Controlled LoRA (CLoRA) を提案する。
論文参考訳（メタデータ） (2024-10-22T08:27:23Z)
AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality [31.830108790753172]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM)におけるトレーニング効率を向上させることで知られている。近年の研究では、LoRAとMixture-of-Experts(MoE)を組み合わせることで、さまざまなタスクのパフォーマンス向上を目指している。 AlphaLoRAは理論上は原則的かつトレーニング不要な手法で、LoRAの専門家をさらなる冗長性に割り当てる。
論文参考訳（メタデータ） (2024-10-14T00:43:02Z)
Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。 LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-10T18:51:53Z)
Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文参考訳（メタデータ） (2024-09-02T08:10:51Z)
Unlocking the Global Synergies in Low-Rank Adapters [20.32980343066711]
低ランク適応(LoRA)は、大規模言語モデルのためのデファクトパラメータ効率の高い微調整技術である。本稿では、ゼロコストプロキシを利用して限られたLoRAトレーニングパラメータを割り当てる軽量探索アルゴリズムであるHeteroLoRAを提案する。実験の結果、HeteroLoRAは同じパラメータのバッジでモデルパフォーマンスを改善することができることがわかった。
論文参考訳（メタデータ） (2024-06-21T08:10:03Z)
Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。 MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文参考訳（メタデータ） (2024-04-21T11:59:53Z)
ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models [8.251547772610301]
低ランク適応 (LoRA) の方法論を、低ランク適応 (AloRA) と呼ぶ革新的なアプローチに拡張する。まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。
論文参考訳（メタデータ） (2024-03-24T15:09:55Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-20T11:56:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。