Fugu-MT 論文翻訳(概要): One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation

論文の概要: One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation

arxiv url: http://arxiv.org/abs/2410.07170v2
Date: Wed, 04 Dec 2024 07:18:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.349336
Title: One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
Title（参考訳）: 全てを規定する初期化:説明変数適応による微調整
Authors: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter,
Abstract要約: 最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。本稿では,アクティベーションベクトルのミニバッチ上での特異値分解(SVD)を計算することにより,新たな重み付けをデータ駆動方式で初期化することでLoRAを改善することを提案する。このようにして、微調整プロセスの間、どの情報をメンテナンスするか、無視するかだけを学ぶ必要がある。
参考スコア（独自算出の注目度）: 13.585425242072173
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across the model weights. Recent works focus on different initialization schemes or the learning of adaptive ranks during fine-tuning. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to suboptimal performance. We propose to improve LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition (SVD) on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and redistribute ranks among all weight matrices to provably store the maximum amount of information of the downstream data in the newly introduced weights. In this way, only what information to maintain or neglect during the fine-tuning process needs to be learned. We call our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and achieves the highest average score across a multitude of tasks per domain while reducing the number of trainable parameters through rank redistribution.
Abstract（参考訳）: ファンデーションモデル(FM)は、大規模なデータセットで事前トレーニングされ、特定のアプリケーションのために下流タスクで微調整される。最も成功し、最も一般的に使用される微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。 LoRAは、モデルウェイト全体にわたって均一なランク分布を持つランダムに初期化される新しいウェイト行列を導入している。最近の研究は、異なる初期化スキームや微調整中の適応階級の学習に焦点を当てている。どちらの手法も単独でのみ研究され、結果として収束が遅く、あるいは等級分布が均一になり、結果として準最適性能がもたらされる。本稿では,アクティベーションベクトルのミニバッチ上での特異値分解(SVD)を計算することにより,新たな重み付けをデータ駆動方式で初期化することでLoRAを改善することを提案する。そして、得られた右特異ベクトルと全ての重み行列中の再帰ランクとでLoRA行列を初期化し、新たに導入された重みに下流データの最大情報を確実に格納する。このようにして、微調整プロセスの間、どの情報をメンテナンスするか、無視するかだけを学ぶ必要がある。我々は新しい方法 Explained Variance Adaptation (EVA) と呼ぶ。 EVAを言語生成や理解から画像分類や強化学習まで,さまざまな微調整タスクに適用する。 EVAは競争相手よりも早く収束し、ランクの再分配によってトレーニング可能なパラメータの数を減らしながら、ドメインごとのタスクの平均スコアが最高になる。

関連論文リスト

OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。 OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文参考訳（メタデータ） (2025-05-20T13:34:06Z)
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文参考訳（メタデータ） (2025-05-19T07:32:56Z)
DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models [33.4538652558253]
低ランク適応(LoRA)は、低ランク行列による更新を近似することにより、微調整された大言語モデル(LLM)の計算とメモリ要求を減らす。本稿では,事前学習した重みの行列積演算子(MPO)分解を利用した重み分解適応(DoTA)を提案する。また、4ビット量子化用に設計されたDoTAの量子化バージョンであるQDoTAを紹介する。
論文参考訳（メタデータ） (2024-12-30T12:00:47Z)
Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。非ゼロ値で2階モーメント推定を初期化する。
論文参考訳（メタデータ） (2024-12-03T04:28:14Z)
NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文参考訳（メタデータ） (2024-10-02T17:29:23Z)
SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文参考訳（メタデータ） (2024-08-06T16:39:42Z)
Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates [21.811889512977924]
自然言語処理では、単一のモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。 B-LoRAは、特定の下流タスクで事前訓練されたモデルを微調整することができ、ローランク行列ごとに最適なランク値と量子化レベルを求めることができる。 B-LoRAはベースラインと同等かそれ以上で動作し、ビット操作の総数を約70%削減する。
論文参考訳（メタデータ） (2024-06-18T20:26:30Z)
CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文参考訳（メタデータ） (2024-06-07T19:10:35Z)
AutoLoRA: Automatically Tuning Matrix Ranks in Low-Rank Adaptation Based on Meta Learning [31.975038164401404]
低ランク適応 (LoRA) 低ランクインクリメンタル更新行列は、凍結事前訓練された重量の上に置かれる。本稿では,各LoRA層の最適ランクを自動的に識別するフレームワークであるAutoLoRAを紹介する。自然言語理解,生成,シーケンスラベリングに関する実験により,AutoLoRAの有効性が示された。
論文参考訳（メタデータ） (2024-03-14T05:29:35Z)
ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。 ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文参考訳（メタデータ） (2024-02-07T15:43:50Z)
Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文参考訳（メタデータ） (2024-02-04T05:05:43Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文参考訳（メタデータ） (2023-07-26T08:25:46Z)
InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。 InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文参考訳（メタデータ） (2023-06-20T03:03:04Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
Adaptive Distribution Calibration for Few-Shot Learning with Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文参考訳（メタデータ） (2022-10-09T02:32:57Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
Learning to Re-weight Examples with Optimal Transport for Imbalanced Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文参考訳（メタデータ） (2022-08-05T01:23:54Z)
Disentangling Generative Factors of Physical Fields Using Variational Autoencoders [0.0]
本研究は,非線形次元低減のための変分オートエンコーダ (VAE) の利用について検討する。不整合分解は解釈可能であり、生成的モデリングを含む様々なタスクに転送することができる。
論文参考訳（メタデータ） (2021-09-15T16:02:43Z)
Direct Evolutionary Optimization of Variational Autoencoders With Binary Latents [0.0]
サンプルベース近似や再パラメータ化を使わずに、個別の潜入子で変分オートエンコーダ(VAE)を訓練できることが示される。大規模な教師付きネットワークとは対照的に、調査対象のVAEは、例えば、よりクリーンなデータや大規模な画像データセットのトレーニングを行うことなく、単一のイメージをノイズ化することができる。
論文参考訳（メタデータ） (2020-11-27T12:42:12Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)
Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。 SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-04-20T02:40:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。