論文の概要: Assessing the Portability of Parameter Matrices Trained by
Parameter-Efficient Finetuning Methods
- arxiv url: http://arxiv.org/abs/2401.14228v1
- Date: Thu, 25 Jan 2024 15:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:22:11.742079
- Title: Assessing the Portability of Parameter Matrices Trained by
Parameter-Efficient Finetuning Methods
- Title(参考訳): パラメータ効率の良い微調整法によるパラメータ行列の可搬性評価
- Authors: Mohammed Sabry and Anya Belz
- Abstract要約: タスク固有の知識をあるモデルから別のモデルにエンコードする機能モジュール全体を移植する。
我々は,パラメータ効率の微調整(PEFT)技術で訓練されたモジュールの可搬性をテストするために,1,440のトレーニング/テストランからなる研究を設計した。
移植したモジュールは2つの代替品よりはるかに優れているが,4つのPEFT技術の間には興味深い性能差がある。
- 参考スコア(独自算出の注目度): 6.653947064461629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the cost of training ever larger language models has grown, so has the
interest in reusing previously learnt knowledge. Transfer learning methods have
shown how reusing non-task-specific knowledge can help in subsequent
task-specific learning. In this paper, we investigate the inverse: porting
whole functional modules that encode task-specific knowledge from one model to
another. We designed a study comprising 1,440 training/testing runs to test the
portability of modules trained by parameter-efficient finetuning (PEFT)
techniques, using sentiment analysis as an example task. We test portability in
a wide range of scenarios, involving different PEFT techniques and different
pretrained host models, among other dimensions. We compare the performance of
ported modules with that of equivalent modules trained (i) from scratch, and
(ii) from parameters sampled from the same distribution as the ported module.
We find that the ported modules far outperform the two alternatives tested, but
that there are interesting performance differences between the four PEFT
techniques. We conclude that task-specific knowledge in the form of
structurally modular sets of parameters as produced by PEFT techniques is
highly portable, but that degree of success depends on type of PEFT and on
differences between originating and receiving pretrained models.
- Abstract(参考訳): より大きな言語モデルのトレーニングコストが増大するにつれて、学習済みの知識の再利用への関心が高まっている。
トランスファーラーニング手法は、タスク固有の知識の再利用がその後のタスク固有の学習にどのように役立つかを示す。
本稿では,タスク固有の知識をあるモデルから別のモデルにエンコードする機能モジュール全体の移植について検討する。
我々は,パラメータ効率の微調整(PEFT)技術で訓練されたモジュールの可搬性をテストするために,感情分析を例として1,440のトレーニング/テストランを用いた研究を設計した。
我々は、様々なPEFT技術と異なる事前訓練されたホストモデルを含む幅広いシナリオでポータビリティをテストする。
移植モジュールの性能と等価モジュールの性能を比較した。
(i)スクラッチから、そして
(ii) ポートされたモジュールと同じ分布からサンプリングされたパラメータから。
移植したモジュールは2つの代替品よりはるかに優れているが,4つのPEFT技術の間には興味深い性能差がある。
PEFT手法により構成的モジュラーなパラメータ集合の形式でのタスク固有の知識は、非常に可搬性が高いが、その成功度はPEFTのタイプと、事前訓練されたモデルの創出と受入の違いに依存する。
関連論文リスト
- Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。
その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。
その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文 参考訳(メタデータ) (2024-08-16T23:57:29Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。