論文の概要: One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
- arxiv url: http://arxiv.org/abs/2410.07170v2
- Date: Wed, 04 Dec 2024 07:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:06:16.120026
- Title: One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
- Title(参考訳): 全てを規定する初期化:説明変数適応による微調整
- Authors: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter,
- Abstract要約: 最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。
本稿では,アクティベーションベクトルのミニバッチ上での特異値分解(SVD)を計算することにより,新たな重み付けをデータ駆動方式で初期化することでLoRAを改善することを提案する。
このようにして、微調整プロセスの間、どの情報をメンテナンスするか、無視するかだけを学ぶ必要がある。
- 参考スコア(独自算出の注目度): 13.585425242072173
- License:
- Abstract: Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across the model weights. Recent works focus on different initialization schemes or the learning of adaptive ranks during fine-tuning. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to suboptimal performance. We propose to improve LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition (SVD) on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and redistribute ranks among all weight matrices to provably store the maximum amount of information of the downstream data in the newly introduced weights. In this way, only what information to maintain or neglect during the fine-tuning process needs to be learned. We call our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and achieves the highest average score across a multitude of tasks per domain while reducing the number of trainable parameters through rank redistribution.
- Abstract(参考訳): ファンデーションモデル(FM)は、大規模なデータセットで事前トレーニングされ、特定のアプリケーションのために下流タスクで微調整される。
最も成功し、最も一般的に使用される微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。
LoRAは、モデルウェイト全体にわたって均一なランク分布を持つランダムに初期化される新しいウェイト行列を導入している。
最近の研究は、異なる初期化スキームや微調整中の適応階級の学習に焦点を当てている。
どちらの手法も単独でのみ研究され、結果として収束が遅く、あるいは等級分布が均一になり、結果として準最適性能がもたらされる。
本稿では,アクティベーションベクトルのミニバッチ上での特異値分解(SVD)を計算することにより,新たな重み付けをデータ駆動方式で初期化することでLoRAを改善することを提案する。
そして、得られた右特異ベクトルと全ての重み行列中の再帰ランクとでLoRA行列を初期化し、新たに導入された重みに下流データの最大情報を確実に格納する。
このようにして、微調整プロセスの間、どの情報をメンテナンスするか、無視するかだけを学ぶ必要がある。
我々は新しい方法 Explained Variance Adaptation (EVA) と呼ぶ。
EVAを言語生成や理解から画像分類や強化学習まで,さまざまな微調整タスクに適用する。
EVAは競争相手よりも早く収束し、ランクの再分配によってトレーニング可能なパラメータの数を減らしながら、ドメインごとのタスクの平均スコアが最高になる。
関連論文リスト
- NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。
広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。
NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates [21.811889512977924]
自然言語処理では、単一のモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。
B-LoRAは、特定の下流タスクで事前訓練されたモデルを微調整することができ、ローランク行列ごとに最適なランク値と量子化レベルを求めることができる。
B-LoRAはベースラインと同等かそれ以上で動作し、ビット操作の総数を約70%削減する。
論文 参考訳(メタデータ) (2024-06-18T20:26:30Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - AutoLoRA: Automatically Tuning Matrix Ranks in Low-Rank Adaptation Based on Meta Learning [31.975038164401404]
低ランク適応 (LoRA) 低ランクインクリメンタル更新行列は、凍結事前訓練された重量の上に置かれる。
本稿では,各LoRA層の最適ランクを自動的に識別するフレームワークであるAutoLoRAを紹介する。
自然言語理解,生成,シーケンスラベリングに関する実験により,AutoLoRAの有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T05:29:35Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。