論文の概要: $\mathcal{Y}$-Tuning: An Efficient Tuning Paradigm for Large-Scale
Pre-Trained Models via Label Representation Learning
- arxiv url: http://arxiv.org/abs/2202.09817v1
- Date: Sun, 20 Feb 2022 13:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:52:32.994734
- Title: $\mathcal{Y}$-Tuning: An Efficient Tuning Paradigm for Large-Scale
Pre-Trained Models via Label Representation Learning
- Title(参考訳): $\mathcal{Y}$-Tuning:ラベル表現学習による大規模事前学習モデルの効率的なチューニングパラダイム
- Authors: Yitao Liu, Chenxin An, Xipeng Qiu
- Abstract要約: $mathcalY$-tuningは、与えられたタスクで定義されたラベルの密度の高い表現を学び、それらを固定された特徴表現に調整する。
1.6億のパラメータを持つ$textDeBERTa_textXXL$の場合、$mathcalY$-tuningはGLUE Benchmarkの完全な微調整の96%以上のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 47.742220473129684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of large-scale pre-trained models (PTMs), how efficiently
adapting PTMs to downstream tasks has attracted tremendous attention,
especially for PTMs with billions of parameters. Although some
parameter-efficient tuning paradigms have been proposed to address this
problem, they still require large resources to compute the gradients in the
training phase. In this paper, we propose $\mathcal{Y}$-Tuning, an efficient
yet effective paradigm to adapt frozen large-scale PTMs to specific downstream
tasks. $\mathcal{Y}$-tuning learns dense representations for labels
$\mathcal{Y}$ defined in a given task and aligns them to fixed feature
representation. Without tuning the features of input text and model parameters,
$\mathcal{Y}$-tuning is both parameter-efficient and training-efficient. For
$\text{DeBERTa}_\text{XXL}$ with 1.6 billion parameters, $\mathcal{Y}$-tuning
achieves performance more than $96\%$ of full fine-tuning on GLUE Benchmark
with only $2\%$ tunable parameters and much fewer training costs.
- Abstract(参考訳): 大規模事前学習モデル(PTM)の成功により、下流タスクへのPTMの適応の効率は、特に数十億のパラメータを持つPTMにとって大きな注目を集めている。
この問題に対処するためにパラメータ効率のよいチューニングパラダイムがいくつか提案されているが、トレーニングフェーズの勾配を計算するには大きなリソースが必要である。
本稿では,凍った大規模ptmを特定の下流タスクに適応させるための効率的かつ効果的なパラダイムである$\mathcal{y}$-tuningを提案する。
$\mathcal{Y}$-tuningは、与えられたタスクで定義されたラベルの密度の高い表現を学習し、固定された特徴表現に調整する。
入力テキストとモデルパラメータの機能をチューニングせずに、$\mathcal{Y}$-tuningはパラメータ効率とトレーニング効率の両方です。
160億のパラメータを持つ$\text{deberta}_\text{xxl}$に対して、$\mathcal{y}$-tuningは、$2\%$の調整可能なパラメータとはるかに少ないトレーニングコストで、guyベンチマークの完全な微調整の96%以上のパフォーマンスを達成している。
関連論文リスト
- Parameter Efficient Quasi-Orthogonal Fine-Tuning via Givens Rotation [20.47507483613317]
微調整法の代表行は直交微調整(OFT)である。
OFTはパラメータ空間内の角距離を厳格に保存し、事前訓練された知識を保存する。
この問題に対処するため、準ギヴンズ直交微調整(qGOFT)を提案する。
論文 参考訳(メタデータ) (2024-04-05T15:28:44Z) - Parameter-efficient is not sufficient: Exploring Parameter, Memory, and
Time Efficient Adapter Tuning for Dense Predictions [9.068569788978854]
パラメータ効率変換学習 (PETL) 法は, 訓練可能なパラメータの少ない下流タスクに適応する上で, 有望な性能を示した。
コンピュータビジョン(CV)におけるPETL法は、計算コストが高く、訓練中に大量のメモリと時間コストを必要とする。
MathrmE3VA$は62.2%のトレーニングメモリと26.2%のトレーニング時間を節約できる。
論文 参考訳(メタデータ) (2023-06-16T09:54:07Z) - Tune As You Scale: Hyperparameter Optimization For Compute Efficient
Training [0.0]
そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。
CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。
その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
論文 参考訳(メタデータ) (2023-06-13T18:22:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Prefix-Tuning: Optimizing Continuous Prompts for Generation [85.6357778621526]
微調整は、大規模な事前訓練された言語モデルを使用して下流のタスクを実行する事実上の方法です。
自然言語生成タスクの微調整に代わる軽量なプレフィックスチューニングを提案する。
パラメータの0.1%しか学習しないことで、プレフィックスチューニングは完全なデータ設定で同等のパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-01-01T08:00:36Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。