論文の概要: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers
- arxiv url: http://arxiv.org/abs/2106.04647v1
- Date: Tue, 8 Jun 2021 19:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:14:32.405019
- Title: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers
- Title(参考訳): compacter: 効率のよい低ランクハイパーコンプレックスアダプタ層
- Authors: Rabeeh Karimi Mahabadi, James Henderson, Sebastian Ruder
- Abstract要約: 大規模事前訓練された言語モデルを微調整により下流タスクに適用することは、NLPベンチマークで最先端のパフォーマンスを達成するための標準的な方法である。
最近の研究ではパラメータ効率のよい微調整法が開発されているが、これらの手法は依然として比較的多くのパラメータを必要とするか、性能の低い標準微調整を必要とする。
本研究では,タスク性能とトレーニング可能なパラメータ数とのトレードオフを改良した,大規模言語モデルの微調整手法であるCompacterを提案する。
- 参考スコア(独自算出の注目度): 37.15691848006744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large-scale pretrained language models to downstream tasks via
fine-tuning is the standard method for achieving state-of-the-art performance
on NLP benchmarks. However, fine-tuning all weights of models with millions or
billions of parameters is sample-inefficient, unstable in low-resource
settings, and wasteful as it requires storing a separate copy of the model for
each task. Recent work has developed parameter-efficient fine-tuning methods,
but these approaches either still require a relatively large number of
parameters or underperform standard fine-tuning. In this work, we propose
Compacter, a method for fine-tuning large-scale language models with a better
trade-off between task performance and the number of trainable parameters than
prior work. Compacter accomplishes this by building on top of ideas from
adapters, low-rank optimization, and parameterized hypercomplex multiplication
layers.
Specifically, Compacter inserts task-specific weight matrices into a
pretrained model's weights, which are computed efficiently as a sum of
Kronecker products between shared ``slow'' weights and ``fast'' rank-one
matrices defined per Compacter layer. By only training 0.047% of a pretrained
model's parameters, Compacter performs on par with standard fine-tuning on GLUE
and outperforms fine-tuning in low-resource settings. Our code is publicly
available in https://github.com/rabeehk/compacter/
- Abstract(参考訳): 微調整によるダウンストリームタスクへの大規模事前学習言語モデルの適用は、nlpベンチマークで最先端のパフォーマンスを達成するための標準的な方法である。
しかし、数百万から数十億のパラメータでモデルのすべての重みを微調整することは、サンプル非効率であり、低リソース設定では不安定であり、各タスクにモデルの別々のコピーを保存する必要があるため無駄である。
近年の研究ではパラメータ効率のよい微調整法が開発されているが、これらの手法は比較的多くのパラメータを必要とするか、標準の微調整が不十分である。
本研究では,従来よりもタスク性能と学習可能なパラメータ数とのトレードオフが良好である大規模言語モデルの微調整手法である compacter を提案する。
compacterはアダプタ、低ランク最適化、パラメータ化ハイパーコンプレックス乗算層のアイデアの上に構築することでこれを実現している。
特に、Compacterはタスク固有の重み行列を事前訓練されたモデルの重みに挿入し、Kroneckerの積を共有の ``slow'' 重みと共有の ``fast'' ランク1の行列の和として効率的に計算する。
事前トレーニングされたモデルのパラメータの 0.047% をトレーニングするだけで、compacter は標準のglue の微調整と同等の性能を発揮し、低リソース設定での微調整よりも優れている。
私たちのコードはhttps://github.com/rabeehk/compacter/で公開されています。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning [38.80020737321214]
構造化非制限ランク行列(SURM)に基づく効率的なパラメータ微調整(PEFT)のためのフレームワークを提案する。
SURMは、LoRAの低ランク行列を置換しながら、様々な画像分類タスクにおいて5-7%の精度向上を実現している。
また、GLUEベンチマークでは、アダプタのパラメータ数を最大12倍に削減する(ほぼ品質が低下する)。
論文 参考訳(メタデータ) (2024-06-25T17:26:05Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。