論文の概要: Jointly Reparametrized Multi-Layer Adaptation for Efficient and Private
Tuning
- arxiv url: http://arxiv.org/abs/2305.19264v1
- Date: Tue, 30 May 2023 17:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:25:45.693261
- Title: Jointly Reparametrized Multi-Layer Adaptation for Efficient and Private
Tuning
- Title(参考訳): 能率・プライベートチューニングのための連立多重層適応法
- Authors: Umang Gupta, Aram Galstyan, Greg Ver Steeg
- Abstract要約: 本稿では,複数のトランス層にタスク固有のパラメータを導入する新しい言語トランスフォーマー微調整手法を提案する。
GLUEタスクの完全な微調整性能の5%以内で、タスク毎のパラメータは4,100にも満たない。
本手法は,プライバシ制約のトレーニングにおいて,最近のいくつかのファインタニング手法と比較して,最適あるいは同等のユーティリティを実現する。
- 参考スコア(独自算出の注目度): 32.69028093984526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient finetuning of pretrained language transformers is becoming
increasingly prevalent for solving natural language processing tasks. While
effective, it can still require a large number of tunable parameters. This can
be a drawback for low-resource applications and training with
differential-privacy constraints, where excessive noise may be introduced
during finetuning. To this end, we propose a novel language transformer
finetuning strategy that introduces task-specific parameters in multiple
transformer layers. These parameters are derived from fixed random projections
of a single trainable vector, enabling finetuning with significantly fewer
parameters while maintaining performance. We achieve within 5% of full
finetuning performance on GLUE tasks with as few as 4,100 parameters per task,
outperforming other parameter-efficient finetuning approaches that use a
similar number of per-task parameters. Besides, the random projections can be
precomputed at inference, avoiding additional computational latency. All these
make our method particularly appealing for low-resource applications. Finally,
our method achieves the best or comparable utility compared to several recent
finetuning methods when training with the same privacy constraints,
underscoring its effectiveness and potential real-world impact.
- Abstract(参考訳): 自然言語処理タスクを解くために,事前学習した言語トランスフォーマーの効率的な微調整が普及しつつある。
有効ではあるが、多くの調整可能なパラメータを必要とすることがある。
これは低リソースのアプリケーションや、微調整中に過剰なノイズを発生させる差分プライバシ制約によるトレーニングの欠点となる可能性がある。
そこで本研究では,複数のトランスフォーマー層にタスク固有のパラメータを導入する言語トランスフォーマーの微調整手法を提案する。
これらのパラメータは、単一のトレーニング可能なベクトルの固定されたランダムなプロジェクションから導出され、性能を維持しながらパラメータを著しく少なく微調整することができる。
タスク毎に最大4,100パラメータしか持たないglueタスクの完全な微調整性能の5%以下を達成し,同様のタスク毎パラメータを使用する他のパラメータ効率の微調整手法よりも優れています。
さらに、ランダムなプロジェクションは推論時にプリ計算され、さらなる計算遅延を回避することができる。
これらすべてが,低リソースアプリケーションに特にアピールしています。
最後に,本手法は,同一のプライバシー制約でトレーニングを行う場合のファインタニング手法と比較して,その有効性と潜在的な実世界への影響を裏付ける。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。