論文の概要: UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning
- arxiv url: http://arxiv.org/abs/2110.07577v1
- Date: Thu, 14 Oct 2021 17:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:30:42.054324
- Title: UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning
- Title(参考訳): UniPELT: パラメータ効率の良い言語モデルチューニングのための統一フレームワーク
- Authors: Yuning Mao, Lambert Mathias, Rui Hou, Amjad Almahairi, Hao Ma, Jiawei
Han, Wen-tau Yih, Madian Khabsa
- Abstract要約: 本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
- 参考スコア(独自算出の注目度): 64.638804236566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional fine-tuning of pre-trained language models tunes all model
parameters and stores a full model copy for each downstream task, which has
become increasingly infeasible as the model size grows larger. Recent
parameter-efficient language model tuning (PELT) methods manage to match the
performance of fine-tuning with much fewer trainable parameters and perform
especially well when the training data is limited. However, different PELT
methods may perform rather differently on the same task, making it nontrivial
to select the most appropriate method for a specific task, especially
considering the fast-growing number of new PELT methods and downstream tasks.
In light of model diversity and the difficulty of model selection, we propose a
unified framework, UniPELT, which incorporates different PELT methods as
submodules and learns to activate the ones that best suit the current data or
task setup. Remarkably, on the GLUE benchmark, UniPELT consistently achieves
1~3pt gains compared to the best individual PELT method that it incorporates
and even outperforms fine-tuning under different setups. Moreover, UniPELT
often surpasses the upper bound when taking the best performance of all its
submodules used individually on each task, indicating that a mixture of
multiple PELT methods may be inherently more effective than single methods.
- Abstract(参考訳): 従来の事前学習された言語モデルの微調整は、すべてのモデルパラメータをチューニングし、下流タスク毎にフルモデルのコピーを格納する。
最近のパラメータ効率のよい言語モデルチューニング(pelt)メソッドは、トレーニング可能なパラメータがはるかに少ない微調整のパフォーマンスと一致し、トレーニングデータが制限された場合に特にうまく機能する。
しかし、異なるPELTメソッドは、同じタスクでかなり異なる動作をする可能性があるため、特に急速に増加する新しいPELTメソッドや下流タスクを考えると、特定のタスクに対して最も適切なメソッドを選択することは簡単ではない。
モデルの多様性とモデル選択の難しさを踏まえ、異なるpeltメソッドをサブモジュールとして組み込んだ統一フレームワークunipeltを提案し、現在のデータやタスクの設定に最も適したものをアクティベートする方法を学習する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定下での微調整よりも優れた個々のPELTメソッドと比較して、一貫して1~3ptのゲインを達成することである。
さらに、UniPELTは、各タスクで個別に使用する全てのサブモジュールの最高のパフォーマンスを取る際に、上限を超えることが多いため、複数のPELTメソッドの混合が本質的に単一のメソッドよりも効果的である可能性がある。
関連論文リスト
- Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models [14.762222323897978]
大規模言語モデルのための新しいパラメータ効率訓練法を提案する。
従来の方法とは異なり、このサブセットはロケーションで固定されるのではなく、トレーニングの過程でどのパラメータが修正されるかである。
本手法により, モデル全体の任意の割合で, サブセットサイズをシームレスにスケーリングすることができる。
論文 参考訳(メタデータ) (2024-11-13T13:53:10Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。