論文の概要: PELA: Learning Parameter-Efficient Models with Low-Rank Approximation
- arxiv url: http://arxiv.org/abs/2310.10700v2
- Date: Fri, 17 Nov 2023 06:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:34:02.199029
- Title: PELA: Learning Parameter-Efficient Models with Low-Rank Approximation
- Title(参考訳): PELA:低ランク近似を用いたパラメータ効率学習モデル
- Authors: Yangyang Guo and Guangzhi Wang and Mohan Kankanhalli
- Abstract要約: そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
- 参考スコア(独自算出の注目度): 16.9278983497498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying a pre-trained large model to downstream tasks is prohibitive under
resource-constrained conditions. Recent dominant approaches for addressing
efficiency issues involve adding a few learnable parameters to the fixed
backbone model. This strategy, however, leads to more challenges in loading
large models for downstream fine-tuning with limited resources. In this paper,
we propose a novel method for increasing the parameter efficiency of
pre-trained models by introducing an intermediate pre-training stage. To this
end, we first employ low-rank approximation to compress the original large
model and then devise a feature distillation module and a weight perturbation
regularization module. These modules are specifically designed to enhance the
low-rank model. In particular, we update only the low-rank model while freezing
the backbone parameters during pre-training. This allows for direct and
efficient utilization of the low-rank model for downstream fine-tuning tasks.
The proposed method achieves both efficiencies in terms of required parameters
and computation time while maintaining comparable results with minimal
modifications to the backbone architecture. Specifically, when applied to three
vision-only and one vision-language Transformer models, our approach often
demonstrates a merely $\sim$0.6 point decrease in performance while reducing
the original parameter size by 1/3 to 2/3.
- Abstract(参考訳): リソース制約のある条件下では、ダウンストリームタスクに事前訓練された大きなモデルを適用することは禁止される。
最近の効率問題に対する支配的なアプローチは、固定バックボーンモデルにいくつかの学習可能なパラメータを追加することである。
しかし、この戦略は、限られたリソースで下流の微調整のために大きなモデルをロードする際のさらなる課題をもたらす。
本稿では,中間プリトレーニングステージを導入することにより,事前学習モデルのパラメータ効率を向上させる新しい手法を提案する。
この目的のために、我々はまず最初に低ランク近似を用いて元の大模型を圧縮し、次に特徴蒸留モジュールと重み摂動正規化モジュールを考案した。
これらのモジュールは低ランクモデルを強化するように設計されている。
特に、トレーニング前のバックボーンパラメータを凍結しながら、低ランクモデルのみを更新する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
提案手法は,バックボーンアーキテクチャに最小限の変更を加えながら,要求パラメータと計算時間の両方の効率性を実現する。
具体的には、3つの視覚のみおよび1つの視覚言語トランスフォーマーモデルに適用すると、元のパラメータサイズを1/3から2/3に減らしながら、性能がわずか$\sim$0.6の低下を示すことがしばしばある。
関連論文リスト
- Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Train Flat, Then Compress: Sharpness-Aware Minimization Learns More
Compressible Models [7.6356407698088]
不要なパラメータを抽出することは、大きなモデルを圧縮するための単純で効果的な方法として現れている。
平らな最小値の最適化は、標準Adamの最適化よりもパラメータの圧縮性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:54:37Z) - Kronecker Factorization for Preventing Catastrophic Forgetting in
Large-scale Medical Entity Linking [7.723047334864811]
医療分野では、タスクのシーケンシャルなトレーニングがモデルをトレーニングする唯一の方法である場合もあります。
破滅的な忘れ物、すなわち、新しいタスクのためにモデルが更新されたとき、以前のタスクの精度が大幅に低下します。
本稿では,この手法が3つのデータセットにまたがる医療機関の重要かつ実証的な課題に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-11T01:51:01Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization
without Compounding Errors [10.906666680425754]
我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。
複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
論文 参考訳(メタデータ) (2020-06-08T21:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。