論文の概要: Parameter-Efficient Fine-Tuning without Introducing New Latency
- arxiv url: http://arxiv.org/abs/2305.16742v1
- Date: Fri, 26 May 2023 08:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:12:15.045196
- Title: Parameter-Efficient Fine-Tuning without Introducing New Latency
- Title(参考訳): 新しいレイテンシーを導入することなくパラメーター効率の良い微調整
- Authors: Baohao Liao, Yan Meng, Christof Monz
- Abstract要約: 隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
- 参考スコア(独自算出の注目度): 7.631596468553607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) of pre-trained language models has
recently demonstrated remarkable achievements, effectively matching the
performance of full fine-tuning while utilizing significantly fewer trainable
parameters, and consequently addressing the storage and communication
constraints. Nonetheless, various PEFT methods are limited by their inherent
characteristics. In the case of sparse fine-tuning, which involves modifying
only a small subset of the existing parameters, the selection of fine-tuned
parameters is task- and domain-specific, making it unsuitable for federated
learning. On the other hand, PEFT methods with adding new parameters typically
introduce additional inference latency. In this paper, we demonstrate the
feasibility of generating a sparse mask in a task-agnostic manner, wherein all
downstream tasks share a common mask. Our approach, which relies solely on the
magnitude information of pre-trained parameters, surpasses existing
methodologies by a significant margin when evaluated on the GLUE benchmark.
Additionally, we introduce a novel adapter technique that directly applies the
adapter to pre-trained parameters instead of the hidden representation, thereby
achieving identical inference speed to that of full fine-tuning. Through
extensive experiments, our proposed method attains a new state-of-the-art
outcome in terms of both performance and storage efficiency, storing only 0.03%
parameters of full fine-tuning.
- Abstract(参考訳): 事前学習された言語モデルのパラメータ効率の良い微調整(PEFT)は、最近顕著な成果を示し、訓練可能なパラメータを著しく少なくして、完全な微調整の性能を効果的にマッチングし、ストレージと通信の制約に対処している。
それにもかかわらず、様々なPEFT法はその特性によって制限されている。
既存のパラメータの小さなサブセットだけを変更するスパース微調整の場合、微調整パラメータの選択はタスクとドメイン固有であり、連合学習には適さない。
一方、新しいパラメータを追加するPEFTメソッドは、通常、追加の推論遅延を導入する。
本稿では,すべての下流タスクが共通のマスクを共有するタスク非依存の方法でスパースマスクを生成可能であることを示す。
提案手法は,事前学習したパラメータの等級情報のみに依存し,GLUEベンチマークで評価した場合,既存の手法をかなり上回っている。
さらに,隠れ表現の代わりに予め学習したパラメータに直接アダプタを適用する新しいアダプタ技術を導入することにより,完全な微調整を行う場合と同一の推論速度を実現する。
広範な実験により,提案手法は性能と記憶効率の両面で新たな結果を得ることができ,完全な微調整のパラメータは0.03%であった。
関連論文リスト
- Pre-training Everywhere: Parameter-Efficient Fine-Tuning for Medical Image Analysis via Target Parameter Pre-training [17.433808197776003]
ターゲット事前学習(TPP)に基づく簡易かつ効果的な微調整フレームワークを提案する。
TPPはPEFTの前にこれらのターゲットパラメータを事前訓練するための追加段階を含む。
TPPは既存のPEFT手法に容易に統合でき、性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-08-27T12:48:46Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Jointly Reparametrized Multi-Layer Adaptation for Efficient and Private
Tuning [32.69028093984526]
本稿では,複数のトランス層にタスク固有のパラメータを導入する新しい言語トランスフォーマー微調整手法を提案する。
GLUEタスクの完全な微調整性能の5%以内で、タスク毎のパラメータは4,100にも満たない。
本手法は,プライバシ制約のトレーニングにおいて,最近のいくつかのファインタニング手法と比較して,最適あるいは同等のユーティリティを実現する。
論文 参考訳(メタデータ) (2023-05-30T17:55:06Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。