論文の概要: Parameter Efficient Fine-tuning via Explained Variance Adaptation
- arxiv url: http://arxiv.org/abs/2410.07170v4
- Date: Wed, 21 May 2025 07:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:56.933385
- Title: Parameter Efficient Fine-tuning via Explained Variance Adaptation
- Title(参考訳): 説明変数適応によるパラメータ高速微調整
- Authors: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter,
- Abstract要約: 本稿では、最もアクティベーションのばらつきを捉えた方向を利用するEVA(Explained Variance Adaptation)を提案する。
EVAを言語生成・理解、画像分類、強化学習など様々な微調整タスクに適用する。
- 参考スコア(独自算出の注目度): 13.585425242072173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned for a specific downstream task. The most common fine-tuning method is to update pretrained weights via low-rank adaptation (LoRA). Existing initialization strategies for LoRA often rely on singular value decompositions (SVD) of gradients or weight matrices. However, they do not provably maximize the expected gradient signal, which is critical for fast adaptation. To this end, we introduce Explained Variance Adaptation (EVA), an initialization scheme that uses the directions capturing the most activation variance, provably maximizing the expected gradient signal and accelerating fine-tuning. EVA performs incremental SVD on minibatches of activation vectors and selects the right-singular vectors for initialization once they converged. Further, by selecting the directions that capture the most activation-variance for a given rank budget, EVA accommodates adaptive ranks that reduce the number of trainable parameters, while maintaining or improving downstream performance. We apply EVA to a variety of fine-tuning tasks as language generation and understanding, image classification, and reinforcement learning. EVA exhibits faster convergence than competitors and achieves the highest average score across a multitude of tasks per domain while reducing the number of trainable parameters through rank redistribution.
- Abstract(参考訳): ファンデーションモデル(FM)は、大規模なデータセットで事前トレーニングされ、特定の下流タスクのために微調整される。
最も一般的な微調整方法は、ローランク適応(LoRA)を介して事前訓練された重量を更新することである。
LoRAの既存の初期化戦略は、勾配や重み行列の特異値分解(SVD)に依存することが多い。
しかし、高速適応に欠かせない、期待される勾配信号を確実に最大化することはできない。
この目的のために、最もアクティベーションのばらつきを捉え、期待される勾配信号の最大化と微調整の高速化を図った初期化手法であるEVA(Explained Variance Adaptation)を導入する。
EVAはアクティベーションベクトルのミニバッチ上でインクリメンタルSVDを実行し、収束すると初期化のための右特異ベクトルを選択する。
さらに、与えられたランク予算の最もアクティベーションのばらつきを捉える方向を選択することで、EVAは、下流のパフォーマンスを維持したり改善したりしながら、トレーニング可能なパラメータの数を減少させる適応的なランクを許容する。
EVAを言語生成・理解、画像分類、強化学習など様々な微調整タスクに適用する。
EVAは競争相手よりも早く収束し、ランクの再分配によってトレーニング可能なパラメータの数を減らしながら、ドメインごとのタスクの平均スコアが最高になる。
関連論文リスト
- OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。
OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。
数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2025-05-20T13:34:06Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models [33.4538652558253]
低ランク適応(LoRA)は、低ランク行列による更新を近似することにより、微調整された大言語モデル(LLM)の計算とメモリ要求を減らす。
本稿では,事前学習した重みの行列積演算子(MPO)分解を利用した重み分解適応(DoTA)を提案する。
また、4ビット量子化用に設計されたDoTAの量子化バージョンであるQDoTAを紹介する。
論文 参考訳(メタデータ) (2024-12-30T12:00:47Z) - Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。
広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。
NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates [21.811889512977924]
自然言語処理では、単一のモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。
B-LoRAは、特定の下流タスクで事前訓練されたモデルを微調整することができ、ローランク行列ごとに最適なランク値と量子化レベルを求めることができる。
B-LoRAはベースラインと同等かそれ以上で動作し、ビット操作の総数を約70%削減する。
論文 参考訳(メタデータ) (2024-06-18T20:26:30Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - AutoLoRA: Automatically Tuning Matrix Ranks in Low-Rank Adaptation Based on Meta Learning [31.975038164401404]
低ランク適応 (LoRA) 低ランクインクリメンタル更新行列は、凍結事前訓練された重量の上に置かれる。
本稿では,各LoRA層の最適ランクを自動的に識別するフレームワークであるAutoLoRAを紹介する。
自然言語理解,生成,シーケンスラベリングに関する実験により,AutoLoRAの有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T05:29:35Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。
本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文 参考訳(メタデータ) (2024-02-04T05:05:43Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。
本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Disentangling Generative Factors of Physical Fields Using Variational
Autoencoders [0.0]
本研究は,非線形次元低減のための変分オートエンコーダ (VAE) の利用について検討する。
不整合分解は解釈可能であり、生成的モデリングを含む様々なタスクに転送することができる。
論文 参考訳(メタデータ) (2021-09-15T16:02:43Z) - Direct Evolutionary Optimization of Variational Autoencoders With Binary
Latents [0.0]
サンプルベース近似や再パラメータ化を使わずに、個別の潜入子で変分オートエンコーダ(VAE)を訓練できることが示される。
大規模な教師付きネットワークとは対照的に、調査対象のVAEは、例えば、よりクリーンなデータや大規模な画像データセットのトレーニングを行うことなく、単一のイメージをノイズ化することができる。
論文 参考訳(メタデータ) (2020-11-27T12:42:12Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。