論文の概要: Raise a Child in Large Language Model: Towards Effective and
Generalizable Fine-tuning
- arxiv url: http://arxiv.org/abs/2109.05687v1
- Date: Mon, 13 Sep 2021 03:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:08:40.321882
- Title: Raise a Child in Large Language Model: Towards Effective and
Generalizable Fine-tuning
- Title(参考訳): 子どもを大規模言語モデルで育てる - 効果的で一般化可能な微調整を目指して
- Authors: Runxin Xu, Fuli Luo, Zhiyuan Zhang, Chuanqi Tan, Baobao Chang,
Songfang Huang, Fei Huang
- Abstract要約: 直感的かつ効果的な微調整手法であるChild-Tuningを提案する。
Child-Tuningは、非子ネットワークの勾配を戦略的に隠蔽することで、大きな事前訓練されたモデルのパラメータのサブセット(子ネットワークと呼ばれる)を更新する。
GLUEベンチマークにおけるさまざまなダウンストリームタスクの実験は、Child-Tuningがバニラファインチューニングを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 37.19166639486404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent pretrained language models extend from millions to billions of
parameters. Thus the need to fine-tune an extremely large pretrained model with
a limited training corpus arises in various downstream tasks. In this paper, we
propose a straightforward yet effective fine-tuning technique, Child-Tuning,
which updates a subset of parameters (called child network) of large pretrained
models via strategically masking out the gradients of the non-child network
during the backward process. Experiments on various downstream tasks in GLUE
benchmark show that Child-Tuning consistently outperforms the vanilla
fine-tuning by 1.5~8.6 average score among four different pretrained models,
and surpasses the prior fine-tuning techniques by 0.6~1.3 points. Furthermore,
empirical results on domain transfer and task transfer show that Child-Tuning
can obtain better generalization performance by large margins.
- Abstract(参考訳): 最近の事前学習された言語モデルは数百万から数十億のパラメータに拡張されている。
したがって、様々な下流タスクにおいて、限られた訓練コーパスを持つ非常に大きな事前訓練モデルの微調整の必要性が生じる。
本稿では,大規模事前学習モデルのパラメータのサブセット(子ネットワークと呼ばれる)を後方処理中に非子ネットワークの勾配を戦略的にマスキングすることで更新する,単純かつ効果的な微調整手法であるChild-Tuningを提案する。
GLUEベンチマークにおける様々な下流タスクの実験では、ベニラの微調整は4つの異なる事前訓練されたモデルの中で1.5〜8.6の平均スコアより一貫して優れており、以前の微調整のテクニックを0.6~1.3ポイント上回っている。
さらに、ドメインの転送とタスクの転送に関する経験的な結果から、チャイルドチューニングは大きなマージンでより良い一般化性能が得られることが示されている。
関連論文リスト
- Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。
18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文 参考訳(メタデータ) (2024-08-13T06:28:43Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。
この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文 参考訳(メタデータ) (2020-04-30T17:23:19Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。