Fugu-MT 論文翻訳(概要): CLOVer: Cross-Layer Orthonormal Vectors Adaption

論文の概要: CLOVer: Cross-Layer Orthonormal Vectors Adaption

arxiv url: http://arxiv.org/abs/2411.17426v2
Date: Sat, 21 Dec 2024 16:34:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.751287
Title: CLOVer: Cross-Layer Orthonormal Vectors Adaption
Title（参考訳）: CLOVer: クロス層オーソノーマルベクトル適応
Authors: Fanxu Meng, Muhan Zhang,
Abstract要約: 本稿では,その基底ベクトルの線形結合を利用して,元の潜在空間内での制約学習を提案する。このアプローチは、モデルの能力を損なうことなく、安定したトレーニングを保証する。
参考スコア（独自算出の注目度）: 24.663574532812376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To adapt a well-trained large model to downstream tasks, we propose constraining learning within its original latent space by leveraging linear combinations of its basis vectors. This approach ensures stable training without compromising the model's capabilities. Traditionally, constructing orthonormal bases from a matrix requires a transfer matrix, which significantly increases storage and computational overhead for parameters and feature maps. In this paper, we introduce Cross-Layer Orthonormal Vectors in Q, K, V, and O matrices, enabling their orthogonalization without the need for transfer matrices. Furthermore, the CLOVer operation eliminates redundant vectors, reducing the encoder attention parameters of Whisper-large-v3 by 46.42% without requiring additional training. For parameter-efficient and stable fine-tuning, we orthonormalized Q, K, V, and O and fine-tuned only the singular values, allowing efficient adaptation while constraining changes to the original latent space. When fine-tuning LLaMA-2-7B on eight commonsense reasoning datasets, our method outperforms LoRA by 5.4% and DoRA by 3.7%. CLOVer forgetting less previous knowledge when learning new knowledge.
Abstract（参考訳）: 下流タスクによく訓練された大モデルを適用するために、基底ベクトルの線形結合を利用して、元の潜在空間内での制約学習を提案する。このアプローチは、モデルの能力を損なうことなく、安定したトレーニングを保証する。伝統的に、行列から正規直交基底を構築するには、転送行列が必要である。本稿では,Q,K,V,O行列において交叉正則ベクトルを導入し,行列の移動を必要とせずに直交化を可能にする。さらに、CLOVer操作は冗長ベクトルを排除し、追加のトレーニングを必要とせずにWhisper-large-v3のエンコーダアテンションパラメータを46.42%削減する。パラメータ効率と安定な微調整のために、我々はQ, K, V, Oを正則に正規化し、特異値のみを微調整し、元の潜伏空間の変更を制約しながら効率的な適応を可能にする。 8つのコモンセンス推論データセット上でLLaMA-2-7Bを微調整すると、我々の手法はLoRAを5.4%、DoRAを3.7%上回る。 CLOVerは、新しい知識を学ぶ際に、以前の知識を忘れる。

関連論文リスト

High-Layer Attention Pruning with Rescaling [14.141903038286362]
プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法である本稿では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。我々は, LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
論文参考訳（メタデータ） (2025-07-02T17:15:05Z)
Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。 DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文参考訳（メタデータ） (2025-03-11T04:43:33Z)
Align Attention Heads Before Merging Them: An Effective Way for Converting MHA to GQA [8.305827430948654]
KVヘッドの圧縮比によらず,MHAをGQAに変換するコスト効率の良い方法を提案する。冗長パラメータをプループするために$mathitL$正規化を使用します。実験の結果,LLaMA2-7Bモデルでは87.5%のKVヘッドを圧縮し,75%のKVヘッドをせん断型LLaMA-1.3Bで圧縮し,性能劣化を許容できることがわかった。
論文参考訳（メタデータ） (2024-12-30T03:05:45Z)
Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。 SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文参考訳（メタデータ） (2024-10-30T12:08:30Z)
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [79.56709262189953]
EoRAは、圧縮されたLLaMA2/3モデルの様々なタスクにおけるエラーを補償する従来の手法より一貫して優れている。 EoRAは、圧縮エラーを補うスケーラブルでトレーニング不要なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
Memory-Efficient LLM Training with Online Subspace Descent [8.393403749426097]
特異値分解を伴わない新しいサブスペース降下系である Online Subspace Descent を提案する。 Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。 C4データセット上の60Mから7BパラメータのLLaMAモデルを事前学習するタスクにおいて、オンラインサブスペースDescentは低いパープレキシティと下流タスクのパフォーマンス向上を実現する。
論文参考訳（メタデータ） (2024-08-23T05:54:53Z)
LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。 LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文参考訳（メタデータ） (2024-08-13T12:31:30Z)
ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。 GLUEデータセット上の分類タスクについて広範な実験を行った。 GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文参考訳（メタデータ） (2024-07-11T09:35:08Z)
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。 MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文参考訳（メタデータ） (2024-06-17T15:02:45Z)
MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning [16.67302585857681]
重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。
論文参考訳（メタデータ） (2024-06-13T12:30:02Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。 ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文参考訳（メタデータ） (2024-02-07T15:43:50Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly Detection [49.510604614688745]
大規模視覚言語モデルCLIPのゼロショット機能を活用するために,CLIP-ADというフレームワークを提案する。異常写像の直接計算における逆の予測と無関係なハイライトについて述べる。
論文参考訳（メタデータ） (2023-11-01T11:39:22Z)
Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。 Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-04-04T01:51:53Z)
Transformers meet Stochastic Block Models: Attention with Data-Adaptive Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文参考訳（メタデータ） (2022-10-27T15:30:52Z)
On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文参考訳（メタデータ） (2022-05-26T11:41:36Z)
Basis Scaling and Double Pruning for Efficient Inference in Network-Based Transfer Learning [1.3467579878240454]
畳み込み層をフィルタとして正規基底ベクトルを持つ畳み込み層と、特徴を再スケーリングする"BasisScalingConv"層に分解する。 CIFAR-10では74.6%、MNISTでは98.9%のプルーニング比が得られる。
論文参考訳（メタデータ） (2021-08-06T00:04:02Z)
MLPruning: A Multilevel Structured Pruning Framework for Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文参考訳（メタデータ） (2021-05-30T22:00:44Z)
Solving weakly supervised regression problem using low-rank manifold regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。 weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文参考訳（メタデータ） (2021-04-13T23:21:01Z)
Training Invertible Linear Layers through Rank-One Perturbations [0.0]
この研究は、非可逆線形層をトレーニングするための新しいアプローチを示す。ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。このような非可逆ブロックが混合性を改善し, 結果として発生する流れのモード分離を正規化する方法を示す。
論文参考訳（メタデータ） (2020-10-14T12:43:47Z)
Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文参考訳（メタデータ） (2020-05-18T17:57:09Z)
Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文参考訳（メタデータ） (2020-04-02T10:14:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。