論文の概要: DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models
- arxiv url: http://arxiv.org/abs/2111.00160v1
- Date: Sat, 30 Oct 2021 03:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:07:03.085026
- Title: DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models
- Title(参考訳): DSEE: 事前訓練された言語モデルの二重疎結合効率的なチューニング
- Authors: Xuxi Chen, Tianlong Chen, Yu Cheng, Weizhu Chen, Zhangyang Wang, Ahmed
Hassan Awadallah
- Abstract要約: 事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
我々のフレームワークは、競争力のある下流転送性能を維持しながら、非常に印象的なパラメータ/トレーニング/推論効率を示す。
- 参考スコア(独自算出の注目度): 100.67200801102535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gigantic pre-trained models have become central to natural language
processing (NLP), serving as the starting point for fine-tuning towards a range
of downstream tasks. However, two pain points persist for this paradigm: (a) as
the pre-trained models grow bigger (e.g., 175B parameters for GPT-3), even the
fine-tuning process can be time-consuming and computationally expensive; (b)
the fine-tuned model has the same size as its starting point by default, which
is neither sensible due to its more specialized functionality, nor practical
since many fine-tuned models will be deployed in resource-constrained
environments. To address these pain points, we propose a framework for
resource- and parameter-efficient fine-tuning by leveraging the sparsity prior
in both weight updates and the final model weights. Our proposed framework,
dubbed Dually Sparsity-Embedded Efficient Tuning (DSEE), aims to achieve two
key objectives: (i) parameter efficient fine-tuning - by enforcing
sparsity-aware weight updates on top of the pre-trained weights; and (ii)
resource-efficient inference - by encouraging a sparse weight structure towards
the final fine-tuned model. We leverage sparsity in these two directions by
exploiting both unstructured and structured sparse patterns in pre-trained
language models via magnitude-based pruning and $\ell_1$ sparse regularization.
Extensive experiments and in-depth investigations, with diverse network
backbones (i.e., BERT, GPT-2, and DeBERTa) on dozens of datasets, consistently
demonstrate highly impressive parameter-/training-/inference-efficiency, while
maintaining competitive downstream transfer performance. For instance, our
DSEE-BERT obtains about $35\%$ inference FLOPs savings with <1% trainable
parameters and comparable performance to conventional fine-tuning. Codes are
available in https://github.com/VITA-Group/DSEE.
- Abstract(参考訳): 先進的な事前学習モデルは自然言語処理(NLP)の中心となり、様々な下流タスクへの微調整の出発点となっている。
しかし、このパラダイムには2つの痛点が残る。
(a) 事前学習モデルが大きくなり(例えば GPT-3 の 175B パラメータなど)、微調整プロセスでさえ時間と計算コストがかかる。
b) 細調整されたモデルがデフォルトの開始点と同じサイズであり,より専門的な機能や,多くの細調整されたモデルがリソース制約のある環境にデプロイされるため,実用的ではない。
これらの問題点に対処するために,重みの更新と最終モデルの重み付けの両方に先立ってスパーシティを活用し,資源効率とパラメータ効率のよい微調整の枠組みを提案する。
提案するフレームワークはdsee(dually sparsity-embedded efficient tuning)と呼ばれ、2つの重要な目標達成を目指している。
一 パラメータ効率のよい微調整-事前訓練した重量の上部に疎度を意識した重量更新を実施することにより
(ii)資源効率のよい推論 - 希薄な重み構造を最終的な微調整モデルに向けて奨励すること。
我々は、マグニチュードベースのpruningと$\ell_1$ sparse正規化により、事前学習された言語モデルで非構造化および構造化スパースパターンの両方を利用することにより、この2つの方向のスパース性を活用する。
数十のデータセット上で多様なネットワークバックボーン(BERT、GPT-2、DeBERTa)を持つ大規模な実験と詳細な調査は、競争力のある下流転送性能を維持しながら、非常に印象的なパラメータ/トレーニング/推論効率を一貫して示す。
例えば、私たちのDSEE-BERTは、トレーニング可能なパラメータが1%で、従来の微調整に匹敵するパフォーマンスで、約35\%の推論FLOPを節約します。
コードはhttps://github.com/VITA-Group/DSEEで入手できる。
関連論文リスト
- Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Empirical Analysis of Efficient Fine-Tuning Methods for Large
Pre-Trained Language Models [4.096453902709292]
BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。
BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。
アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
論文 参考訳(メタデータ) (2024-01-08T17:44:43Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。