論文の概要: Task-Specific Skill Localization in Fine-tuned Language Models
- arxiv url: http://arxiv.org/abs/2302.06600v1
- Date: Mon, 13 Feb 2023 18:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 14:17:33.435760
- Title: Task-Specific Skill Localization in Fine-tuned Language Models
- Title(参考訳): 微調整言語モデルにおけるタスク特化スキルローカライゼーション
- Authors: Abhishek Panigrahi, Nikunj Saunshi, Haoyu Zhao, Sanjeev Arora
- Abstract要約: 本稿では,この問題に対するスキルローカライゼーションという用語を紹介する。
単純な最適化は、非常に小さなパラメータのサブセットを特定するために使われる。
この小さなサブセットの微調整された値を事前訓練されたモデルに移植することで、微調整されたモデルとほぼ同等のパフォーマンスが得られる。
- 参考スコア(独自算出の注目度): 36.53572616441048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models can be fine-tuned to solve diverse NLP tasks,
including in few-shot settings. Thus fine-tuning allows the model to quickly
pick up task-specific ``skills,'' but there has been limited study of where
these newly-learnt skills reside inside the massive model. This paper
introduces the term skill localization for this problem and proposes a
solution. Given the downstream task and a model fine-tuned on that task, a
simple optimization is used to identify a very small subset of parameters
($\sim0.01$% of model parameters) responsible for ($>95$%) of the model's
performance, in the sense that grafting the fine-tuned values for just this
tiny subset onto the pre-trained model gives performance almost as well as the
fine-tuned model. While reminiscent of recent works on parameter-efficient
fine-tuning, the novel aspects here are that: (i) No further re-training is
needed on the subset (unlike, say, with lottery tickets). (ii) Notable
improvements are seen over vanilla fine-tuning with respect to calibration of
predictions in-distribution ($40$-$90$% error reduction) as well as the quality
of predictions out-of-distribution (OOD). In models trained on multiple tasks,
a stronger notion of skill localization is observed, where the sparse regions
corresponding to different tasks are almost disjoint, and their overlap (when
it happens) is a proxy for task similarity. Experiments suggest that
localization via grafting can assist certain forms of continual learning.
- Abstract(参考訳): 事前訓練された言語モデルは、数ショット設定を含む多様なNLPタスクを解決するために微調整できる。
このように微調整することで、モデルがタスク固有の `skills,'' を素早く拾うことができるが、これらの新しい学習スキルが巨大なモデル内に存在する場所についての研究は限られている。
本稿では,この問題に対するスキルローカライズという用語を紹介し,解決策を提案する。
ダウンストリームタスクと、そのタスクに微調整されたモデルが与えられた場合、モデルのパフォーマンスに責任を持つパラメータのごく小さなサブセット(モデルパラメータの\sim0.01$%)を特定するために、単純な最適化が使われます。
パラメータ効率の良い微調整に関する最近の研究を思い出す一方で、新しい側面は以下のとおりである。
(i)未成年者(宝くじなどを除く。)には再訓練は不要。
(ii)分布の予測のキャリブレーション(40〜90$%の誤差削減)と分布外の予測の質(ood)に関して、バニラの微調整よりも顕著な改善が見られる。
複数のタスクで訓練されたモデルでは、異なるタスクに対応するスパース領域がほぼ不整合であり、そのオーバーラップ(その場合)がタスク類似性のプロキシとなるような、スキルローカライゼーションの強い概念が観察される。
実験により、移植による局所化はある種の連続学習を支援することが示唆された。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large
Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題
本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T11:02:05Z) - Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks [37.278707106871295]
プレトレーニング中にモデルが学習する基礎的能力に微調整がどう影響するかを考察する。
微調整が基礎となるモデル能力を変えることは滅多にない。
また、微調整により、意図せずにモデルの安全ラッパーを除去できることも示している。
論文 参考訳(メタデータ) (2023-11-21T18:51:04Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Preserving Pre-trained Features Helps Calibrate Fine-tuned Language
Models [23.881825575095945]
大規模事前学習型言語モデル(PLM)は、微調整により自然言語理解(NLU)タスクに強い性能を示す。
しかし、微調整されたモデルは、特にドメイン外設定において、過度に自信過剰な予測に悩まされている。
本研究では,PLMがマスキング言語モデリングタスクにおいて,ドメインシフトの下で頑健な予測信頼度を有することを実証する。
事前学習した特徴の保存は、微調整言語モデルの校正を改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:35:31Z) - Skill-Based Few-Shot Selection for In-Context Learning [123.26522773708683]
Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T16:28:29Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。