論文の概要: Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific
Subspaces of Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2305.17446v2
- Date: Tue, 1 Aug 2023 08:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:29:13.366406
- Title: Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific
Subspaces of Pre-trained Language Models
- Title(参考訳): タイニー部分空間における微調整現象:事前訓練された言語モデルの固有のタスク固有部分空間の探索
- Authors: Zhong Zhang, Bang Liu, Junming Shao
- Abstract要約: 事前訓練された言語モデル(PLM)は過度にパラメータ化され、かなりの冗長性を持つことが知られている。
本稿では,タスク固有の部分空間の発見という新たな視点から,再パラメータ化と微調整の問題を考察する。
鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。
- 参考スコア(独自算出の注目度): 16.28794184086409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) are known to be overly parameterized and
have significant redundancy, indicating a small degree of freedom of the PLMs.
Motivated by the observation, in this paper, we study the problem of
re-parameterizing and fine-tuning PLMs from a new perspective: Discovery of
intrinsic task-specific subspace. Specifically, by exploiting the dynamics of
the fine-tuning process for a given task, the parameter optimization trajectory
is learned to uncover its intrinsic task-specific subspace. A key finding is
that PLMs can be effectively fine-tuned in the subspace with a small number of
free parameters. Beyond, we observe some outlier dimensions emerging during
fine-tuning in the subspace. Disabling these dimensions degrades the model
performance significantly. This suggests that these dimensions are crucial to
induce task-specific knowledge to downstream tasks.
- Abstract(参考訳): 事前学習された言語モデル(plm)は過度にパラメータ化され、有意な冗長性を有し、plmの自由度が小さいことが知られている。
本稿では,その観察に動機づけられたplmの再パラメータ化と微調整の問題について,タスク固有の部分空間の発見という新たな視点から検討する。
具体的には、与えられたタスクの微調整プロセスのダイナミクスを利用してパラメータ最適化軌道を学習し、そのタスク固有の部分空間を明らかにする。
鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。
さらに、部分空間の微調整中に現れるいくつかの外界次元を観察する。
これらの次元の無効化はモデルの性能を著しく低下させる。
これは、これらの次元がタスク固有の知識を下流のタスクに誘導するのに重要であることを示唆している。
関連論文リスト
- Beyond Task Vectors: Selective Task Arithmetic Based on Importance Metrics [0.0]
本稿では,タスク固有パラメータ融合によるマルチタスク性能向上を目的としたトレーニングフリーフレームワークであるtextbfunderlineSelective textbfunderlineTask textbfunderlineArithmetic underlinetextbf(STA)を紹介する。
実験により,STAはベンチマーク間で優れたマルチタスク性能を実現し,タスクを忘れる際の優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-25T06:59:16Z) - Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。
本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models [29.140036130469042]
本稿では、下流タスクにおける各パラメータの重要性を考慮に入れたノイズの多いトレーニングメカニズムであるPATS(Perturbation Based To Sensitivity)を提案する。
GLUEベンチマークの異なるタスクで実施された実験は、PATSがPLMの異なるサイズの微調整を一貫して強化できることを示している。
論文 参考訳(メタデータ) (2022-10-22T10:05:14Z) - Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning [70.76016793057283]
本研究では,事前学習型言語モデル(PLM)が普遍表現を学習し,異なる幅広いNLPタスクに効果的に適用する方法について検討する。
実験では,100個のランダムタスクを持つ5次元部分空間において,5つの自由パラメータをチューニングするだけで,全プロンプトチューニング性能の87%と65%を回復できることがわかった。
論文 参考訳(メタデータ) (2021-10-15T05:43:59Z) - A local approach to parameter space reduction for regression and
classification tasks [0.0]
そこで本研究では, クラスタリング手法を用いて, アクティブ部分空間のシナジーを探索する, ローカルアクティブ部分空間 (LAS) と呼ばれる新しい手法を提案する。
LASは、サロゲートモデリングに取り組んでいるコミュニティにとって特に有用である。
論文 参考訳(メタデータ) (2021-07-22T18:06:04Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。