論文の概要: Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific
Subspaces of Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2305.17446v2
- Date: Tue, 1 Aug 2023 08:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:29:13.366406
- Title: Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific
Subspaces of Pre-trained Language Models
- Title(参考訳): タイニー部分空間における微調整現象:事前訓練された言語モデルの固有のタスク固有部分空間の探索
- Authors: Zhong Zhang, Bang Liu, Junming Shao
- Abstract要約: 事前訓練された言語モデル(PLM)は過度にパラメータ化され、かなりの冗長性を持つことが知られている。
本稿では,タスク固有の部分空間の発見という新たな視点から,再パラメータ化と微調整の問題を考察する。
鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。
- 参考スコア(独自算出の注目度): 16.28794184086409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) are known to be overly parameterized and
have significant redundancy, indicating a small degree of freedom of the PLMs.
Motivated by the observation, in this paper, we study the problem of
re-parameterizing and fine-tuning PLMs from a new perspective: Discovery of
intrinsic task-specific subspace. Specifically, by exploiting the dynamics of
the fine-tuning process for a given task, the parameter optimization trajectory
is learned to uncover its intrinsic task-specific subspace. A key finding is
that PLMs can be effectively fine-tuned in the subspace with a small number of
free parameters. Beyond, we observe some outlier dimensions emerging during
fine-tuning in the subspace. Disabling these dimensions degrades the model
performance significantly. This suggests that these dimensions are crucial to
induce task-specific knowledge to downstream tasks.
- Abstract(参考訳): 事前学習された言語モデル(plm)は過度にパラメータ化され、有意な冗長性を有し、plmの自由度が小さいことが知られている。
本稿では,その観察に動機づけられたplmの再パラメータ化と微調整の問題について,タスク固有の部分空間の発見という新たな視点から検討する。
具体的には、与えられたタスクの微調整プロセスのダイナミクスを利用してパラメータ最適化軌道を学習し、そのタスク固有の部分空間を明らかにする。
鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。
さらに、部分空間の微調整中に現れるいくつかの外界次元を観察する。
これらの次元の無効化はモデルの性能を著しく低下させる。
これは、これらの次元がタスク固有の知識を下流のタスクに誘導するのに重要であることを示唆している。
関連論文リスト
- Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Task-Specific Skill Localization in Fine-tuned Language Models [36.53572616441048]
本稿では,この問題に対するスキルローカライゼーションという用語を紹介する。
単純な最適化は、非常に小さなパラメータのサブセットを特定するために使われる。
この小さなサブセットの微調整された値を事前訓練されたモデルに移植することで、微調整されたモデルとほぼ同等のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-02-13T18:55:52Z) - Parameter-Efficient Low-Resource Dialogue State Tracking by Prompt
Tuning [57.01260458860375]
対話状態追跡(DST)は,ユーザの信念を追跡するための対話管理において重要なステップである。
既存の処理は、DSTタスクに取り組むために、すべての言語モデル(LM)パラメータを微調整する。
本稿では,ソフトプロンプトトークンの埋め込みによるタスク特性の学習を提案する。
論文 参考訳(メタデータ) (2023-01-26T03:01:59Z) - PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models [29.140036130469042]
本稿では、下流タスクにおける各パラメータの重要性を考慮に入れたノイズの多いトレーニングメカニズムであるPATS(Perturbation Based To Sensitivity)を提案する。
GLUEベンチマークの異なるタスクで実施された実験は、PATSがPLMの異なるサイズの微調整を一貫して強化できることを示している。
論文 参考訳(メタデータ) (2022-10-22T10:05:14Z) - Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning [70.76016793057283]
本研究では,事前学習型言語モデル(PLM)が普遍表現を学習し,異なる幅広いNLPタスクに効果的に適用する方法について検討する。
実験では,100個のランダムタスクを持つ5次元部分空間において,5つの自由パラメータをチューニングするだけで,全プロンプトチューニング性能の87%と65%を回復できることがわかった。
論文 参考訳(メタデータ) (2021-10-15T05:43:59Z) - A local approach to parameter space reduction for regression and
classification tasks [0.0]
そこで本研究では, クラスタリング手法を用いて, アクティブ部分空間のシナジーを探索する, ローカルアクティブ部分空間 (LAS) と呼ばれる新しい手法を提案する。
LASは、サロゲートモデリングに取り組んでいるコミュニティにとって特に有用である。
論文 参考訳(メタデータ) (2021-07-22T18:06:04Z) - Sample Efficient Linear Meta-Learning by Alternating Minimization [74.40553081646995]
低次元部分空間と回帰器を交互に学習する簡易交互最小化法(MLLAM)について検討する。
定数部分空間次元に対して、MLLAMはタスクあたり$Omega(log d)$サンプルしか必要とせず、ほぼ最適推定誤差が得られることを示す。
MLLAMと同様の強力な統計的保証を保証する新しいタスクサブセット選択スキームを提案する。
論文 参考訳(メタデータ) (2021-05-18T06:46:48Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。