論文の概要: Efficient Fine-Tuning of Compressed Language Models with Learners
- arxiv url: http://arxiv.org/abs/2208.02070v1
- Date: Wed, 3 Aug 2022 13:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:11:04.713633
- Title: Efficient Fine-Tuning of Compressed Language Models with Learners
- Title(参考訳): 学習者による圧縮言語モデルの効率的な微調整
- Authors: Danilo Vucetic, Mohammadreza Tayaranian, Maryam Ziaeefard, James J.
Clark, Brett H. Meyer, Warren J. Gross
- Abstract要約: 本稿では,BERTをベースとしたモデルを微調整する新しい手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは, 1) パラメータのサブセットを微調整することで, 1) 学習モジュールの二重結合を効果的に操作し, 2) 迅速な収束と高い測定値のスコアを確保することによって効果的に学習する。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 12.768368718187428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning BERT-based models is resource-intensive in memory, computation,
and time. While many prior works aim to improve inference efficiency via
compression techniques, e.g., pruning, these works do not explicitly address
the computational challenges of training to downstream tasks. We introduce
Learner modules and priming, novel methods for fine-tuning that exploit the
overparameterization of pre-trained language models to gain benefits in
convergence speed and resource utilization. Learner modules navigate the double
bind of 1) training efficiently by fine-tuning a subset of parameters, and 2)
training effectively by ensuring quick convergence and high metric scores. Our
results on DistilBERT demonstrate that learners perform on par with or surpass
the baselines. Learners train 7x fewer parameters than state-of-the-art methods
on GLUE. On CoLA, learners fine-tune 20% faster, and have significantly lower
resource utilization.
- Abstract(参考訳): 細調整のBERTベースのモデルは、メモリ、計算、時間に資源が集中している。
多くの先行研究は、例えばpruningのような圧縮技術による推論効率の向上を目標としているが、これらの研究は、下流タスクへのトレーニングの計算上の課題を明示的に扱っていない。
本稿では,事前学習した言語モデルの過度パラメータ化を利用して,収束速度と資源利用のメリットを享受するファインチューニング手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは二重結合をナビゲートする
1)パラメータのサブセットを微調整して効率よく訓練し、
2)迅速な収束とハイメトリックスコアの確保による効果的なトレーニング。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
学習者はGLUEの最先端メソッドよりも7倍少ないパラメータを訓練する。
CoLAでは、学習者は20%高速で、リソース使用率が大幅に低下する。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Differentiable Entailment for Parameter Efficient Few Shot Learning [0.0]
本稿では,パラメータ効率を向上する新しい手法を提案する。
数ショット体制におけるパラメータ効率と性能のトレードオフを定量化する。
任意のタスクに拡張可能な,シンプルなモデルに依存しないアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-31T00:31:11Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。