論文の概要: CLOVer: Cross-Layer Orthonormal Vectors Adaption
- arxiv url: http://arxiv.org/abs/2411.17426v2
- Date: Sat, 21 Dec 2024 16:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:10.677432
- Title: CLOVer: Cross-Layer Orthonormal Vectors Adaption
- Title(参考訳): CLOVer: クロス層オーソノーマルベクトル適応
- Authors: Fanxu Meng, Muhan Zhang,
- Abstract要約: 本稿では,その基底ベクトルの線形結合を利用して,元の潜在空間内での制約学習を提案する。
このアプローチは、モデルの能力を損なうことなく、安定したトレーニングを保証する。
- 参考スコア(独自算出の注目度): 24.663574532812376
- License:
- Abstract: To adapt a well-trained large model to downstream tasks, we propose constraining learning within its original latent space by leveraging linear combinations of its basis vectors. This approach ensures stable training without compromising the model's capabilities. Traditionally, constructing orthonormal bases from a matrix requires a transfer matrix, which significantly increases storage and computational overhead for parameters and feature maps. In this paper, we introduce Cross-Layer Orthonormal Vectors in Q, K, V, and O matrices, enabling their orthogonalization without the need for transfer matrices. Furthermore, the CLOVer operation eliminates redundant vectors, reducing the encoder attention parameters of Whisper-large-v3 by 46.42% without requiring additional training. For parameter-efficient and stable fine-tuning, we orthonormalized Q, K, V, and O and fine-tuned only the singular values, allowing efficient adaptation while constraining changes to the original latent space. When fine-tuning LLaMA-2-7B on eight commonsense reasoning datasets, our method outperforms LoRA by 5.4% and DoRA by 3.7%. CLOVer forgetting less previous knowledge when learning new knowledge.
- Abstract(参考訳): 下流タスクによく訓練された大モデルを適用するために、基底ベクトルの線形結合を利用して、元の潜在空間内での制約学習を提案する。
このアプローチは、モデルの能力を損なうことなく、安定したトレーニングを保証する。
伝統的に、行列から正規直交基底を構築するには、転送行列が必要である。
本稿では,Q,K,V,O行列において交叉正則ベクトルを導入し,行列の移動を必要とせずに直交化を可能にする。
さらに、CLOVer操作は冗長ベクトルを排除し、追加のトレーニングを必要とせずにWhisper-large-v3のエンコーダアテンションパラメータを46.42%削減する。
パラメータ効率と安定な微調整のために、我々はQ, K, V, Oを正則に正規化し、特異値のみを微調整し、元の潜伏空間の変更を制約しながら効率的な適応を可能にする。
8つのコモンセンス推論データセット上でLLaMA-2-7Bを微調整すると、我々の手法はLoRAを5.4%、DoRAを3.7%上回る。
CLOVerは、新しい知識を学ぶ際に、以前の知識を忘れる。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [79.56709262189953]
EoRAは、圧縮されたLLaMA2/3モデルの様々なタスクにおけるエラーを補償する従来の手法より一貫して優れている。
EoRAは、圧縮エラーを補うスケーラブルでトレーニング不要なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Memory-Efficient LLM Training with Online Subspace Descent [8.393403749426097]
特異値分解を伴わない新しいサブスペース降下系である Online Subspace Descent を提案する。
Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。
C4データセット上の60Mから7BパラメータのLLaMAモデルを事前学習するタスクにおいて、オンラインサブスペースDescentは低いパープレキシティと下流タスクのパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2024-08-23T05:54:53Z) - MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning [16.67302585857681]
重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。
主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。
微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。
論文 参考訳(メタデータ) (2024-06-13T12:30:02Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Training Invertible Linear Layers through Rank-One Perturbations [0.0]
この研究は、非可逆線形層をトレーニングするための新しいアプローチを示す。
ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。
このような非可逆ブロックが混合性を改善し, 結果として発生する流れのモード分離を正規化する方法を示す。
論文 参考訳(メタデータ) (2020-10-14T12:43:47Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。