論文の概要: CLOVER: Constrained Learning with Orthonormal Vectors for Eliminating Redundancy
- arxiv url: http://arxiv.org/abs/2411.17426v1
- Date: Tue, 26 Nov 2024 13:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:51.855753
- Title: CLOVER: Constrained Learning with Orthonormal Vectors for Eliminating Redundancy
- Title(参考訳): CLOVER: 冗長性解消のためのオルソノーマルベクトルによる制約付き学習
- Authors: Fanxu Meng, Muhan Zhang,
- Abstract要約: 本稿では,その基底ベクトルの線形結合を利用して,元の潜在空間内での制約学習を提案する。
パラメータ効率と安定な微調整では、Q, K, V, O を正規化し、特異値のみを微調整する。
8つのコモンセンス推論データセット上でLLaMA-2-7Bを微調整すると、我々の手法はLoRAを5.4%、DoRAを4.4%上回る。
- 参考スコア(独自算出の注目度): 24.663574532812376
- License:
- Abstract: To adapt a well-trained large model to downstream tasks, we propose constraining learning within its original latent space by leveraging linear combinations of its basis vectors. This approach ensures stable training without compromising the model's capabilities. Traditionally, constructing orthonormal bases from a matrix requires a transfer matrix, which significantly increases storage and computational overhead for parameters and feature maps. In this paper, we introduce Absorb and Decompose for Q, K, V, and O matrices, enabling their orthogonalization without the need for transfer matrices. Furthermore, the Absorb-Decompose operation eliminates redundant vectors, reducing the encoder attention parameters of Whisper-large-v3 by 46.42% without requiring additional training. For parameter-efficient and stable fine-tuning, we orthonormalized Q, K, V, and O and fine-tuned only the singular values, allowing efficient adaptation while constraining changes to the original latent space. When fine-tuning LLaMA-2-7B on eight commonsense reasoning datasets, our method outperforms LoRA by 5.4% and DoRA by 4.4%.
- Abstract(参考訳): 下流タスクによく訓練された大モデルを適用するために、基底ベクトルの線形結合を利用して、元の潜在空間内での制約学習を提案する。
このアプローチは、モデルの能力を損なうことなく、安定したトレーニングを保証する。
伝統的に、行列から正規直交基底を構築するには、転送行列が必要である。
本稿では、Q, K, V, O 行列に対する Absorb と Decompose を導入し、それらの直交化を可能にする。
さらに、Absorb-Decompose操作は冗長ベクトルを排除し、Whisper-large-v3のエンコーダ注意パラメータを46.42%削減する。
パラメータ効率と安定な微調整のために、我々はQ, K, V, Oを正則に正規化し、特異値のみを微調整し、元の潜伏空間の変更を制約しながら効率的な適応を可能にする。
8つのコモンセンス推論データセット上でLLaMA-2-7Bを微調整すると、我々の手法はLoRAを5.4%、DoRAを4.4%上回る。
関連論文リスト
- LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。
LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文 参考訳(メタデータ) (2024-08-13T12:31:30Z) - ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文 参考訳(メタデータ) (2024-07-11T09:35:08Z) - DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。
MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文 参考訳(メタデータ) (2024-06-17T15:02:45Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly
Detection [49.510604614688745]
大規模視覚言語モデルCLIPのゼロショット機能を活用するために,CLIP-ADというフレームワークを提案する。
異常写像の直接計算における逆の予測と無関係なハイライトについて述べる。
論文 参考訳(メタデータ) (2023-11-01T11:39:22Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Basis Scaling and Double Pruning for Efficient Inference in
Network-Based Transfer Learning [1.3467579878240454]
畳み込み層をフィルタとして正規基底ベクトルを持つ畳み込み層と、特徴を再スケーリングする"BasisScalingConv"層に分解する。
CIFAR-10では74.6%、MNISTでは98.9%のプルーニング比が得られる。
論文 参考訳(メタデータ) (2021-08-06T00:04:02Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。
本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文 参考訳(メタデータ) (2020-05-18T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。