Fugu-MT 論文翻訳(概要): Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific Subspaces of Pre-trained Language Models

論文の概要: Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific Subspaces of Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2305.17446v2
Date: Tue, 1 Aug 2023 08:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-02 17:29:13.366406
Title: Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific Subspaces of Pre-trained Language Models
Title（参考訳）: タイニー部分空間における微調整現象:事前訓練された言語モデルの固有のタスク固有部分空間の探索
Authors: Zhong Zhang, Bang Liu, Junming Shao
Abstract要約: 事前訓練された言語モデル(PLM)は過度にパラメータ化され、かなりの冗長性を持つことが知られている。本稿では,タスク固有の部分空間の発見という新たな視点から,再パラメータ化と微調整の問題を考察する。鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。
参考スコア（独自算出の注目度）: 16.28794184086409
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models (PLMs) are known to be overly parameterized and have significant redundancy, indicating a small degree of freedom of the PLMs. Motivated by the observation, in this paper, we study the problem of re-parameterizing and fine-tuning PLMs from a new perspective: Discovery of intrinsic task-specific subspace. Specifically, by exploiting the dynamics of the fine-tuning process for a given task, the parameter optimization trajectory is learned to uncover its intrinsic task-specific subspace. A key finding is that PLMs can be effectively fine-tuned in the subspace with a small number of free parameters. Beyond, we observe some outlier dimensions emerging during fine-tuning in the subspace. Disabling these dimensions degrades the model performance significantly. This suggests that these dimensions are crucial to induce task-specific knowledge to downstream tasks.
Abstract（参考訳）: 事前学習された言語モデル(plm)は過度にパラメータ化され、有意な冗長性を有し、plmの自由度が小さいことが知られている。本稿では,その観察に動機づけられたplmの再パラメータ化と微調整の問題について,タスク固有の部分空間の発見という新たな視点から検討する。具体的には、与えられたタスクの微調整プロセスのダイナミクスを利用してパラメータ最適化軌道を学習し、そのタスク固有の部分空間を明らかにする。鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。さらに、部分空間の微調整中に現れるいくつかの外界次元を観察する。これらの次元の無効化はモデルの性能を著しく低下させる。これは、これらの次元がタスク固有の知識を下流のタスクに誘導するのに重要であることを示唆している。

関連論文リスト

Efficient Model Editing with Task-Localized Sparse Fine-tuning [14.792099973449794]
そこで本稿では,明示的な線形化を必要とせず,最小限の干渉でスパースタスクベクトルを構築できるTaLoSを提案する。事前学習されたモデルには、タスク間の勾配感度が一貫して低いパラメータのサブセットが含まれていることがわかった。実験により,TaLoSは,タスクの追加や否定において,現在の手法より優れている一方で,トレーニングと推論の効率が向上することが証明された。
論文参考訳（メタデータ） (2025-04-03T14:20:06Z)
Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文参考訳（メタデータ） (2025-04-01T14:36:45Z)
Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control [0.0]
本稿では,Prompt-Tuningでよく見られる埋没崩壊現象が,モデルの最終性能に与える影響について検討する。以上の結果から, 先行は調整した埋め込みの位置に強く影響し, モデルが活性化空間の異なる部分からの埋め込みを効果的に扱えることが示唆された。
論文参考訳（メタデータ） (2024-12-24T18:18:52Z)
Beyond Task Vectors: Selective Task Arithmetic Based on Importance Metrics [0.0]
本稿では,タスク固有パラメータ融合によるマルチタスク性能向上を目的としたトレーニングフリーフレームワークであるtextbfunderlineSelective textbfunderlineTask textbfunderlineArithmetic underlinetextbf(STA)を紹介する。実験により,STAはベンチマーク間で優れたマルチタスク性能を実現し,タスクを忘れる際の優れた性能を示した。
論文参考訳（メタデータ） (2024-11-25T06:59:16Z)
Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文参考訳（メタデータ） (2024-09-17T06:51:59Z)
Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文参考訳（メタデータ） (2024-09-02T08:10:51Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-05-22T08:39:25Z)
PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models [29.140036130469042]
本稿では、下流タスクにおける各パラメータの重要性を考慮に入れたノイズの多いトレーニングメカニズムであるPATS(Perturbation Based To Sensitivity)を提案する。 GLUEベンチマークの異なるタスクで実施された実験は、PATSがPLMの異なるサイズの微調整を一貫して強化できることを示している。
論文参考訳（メタデータ） (2022-10-22T10:05:14Z)
Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning [70.76016793057283]
本研究では,事前学習型言語モデル(PLM)が普遍表現を学習し,異なる幅広いNLPタスクに効果的に適用する方法について検討する。実験では,100個のランダムタスクを持つ5次元部分空間において,5つの自由パラメータをチューニングするだけで,全プロンプトチューニング性能の87%と65%を回復できることがわかった。
論文参考訳（メタデータ） (2021-10-15T05:43:59Z)
A local approach to parameter space reduction for regression and classification tasks [0.0]
そこで本研究では, クラスタリング手法を用いて, アクティブ部分空間のシナジーを探索する, ローカルアクティブ部分空間 (LAS) と呼ばれる新しい手法を提案する。 LASは、サロゲートモデリングに取り組んでいるコミュニティにとって特に有用である。
論文参考訳（メタデータ） (2021-07-22T18:06:04Z)
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文参考訳（メタデータ） (2020-12-22T07:42:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。