論文の概要: UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning
- arxiv url: http://arxiv.org/abs/2110.07577v1
- Date: Thu, 14 Oct 2021 17:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:30:42.054324
- Title: UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning
- Title(参考訳): UniPELT: パラメータ効率の良い言語モデルチューニングのための統一フレームワーク
- Authors: Yuning Mao, Lambert Mathias, Rui Hou, Amjad Almahairi, Hao Ma, Jiawei
Han, Wen-tau Yih, Madian Khabsa
- Abstract要約: 本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
- 参考スコア(独自算出の注目度): 64.638804236566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional fine-tuning of pre-trained language models tunes all model
parameters and stores a full model copy for each downstream task, which has
become increasingly infeasible as the model size grows larger. Recent
parameter-efficient language model tuning (PELT) methods manage to match the
performance of fine-tuning with much fewer trainable parameters and perform
especially well when the training data is limited. However, different PELT
methods may perform rather differently on the same task, making it nontrivial
to select the most appropriate method for a specific task, especially
considering the fast-growing number of new PELT methods and downstream tasks.
In light of model diversity and the difficulty of model selection, we propose a
unified framework, UniPELT, which incorporates different PELT methods as
submodules and learns to activate the ones that best suit the current data or
task setup. Remarkably, on the GLUE benchmark, UniPELT consistently achieves
1~3pt gains compared to the best individual PELT method that it incorporates
and even outperforms fine-tuning under different setups. Moreover, UniPELT
often surpasses the upper bound when taking the best performance of all its
submodules used individually on each task, indicating that a mixture of
multiple PELT methods may be inherently more effective than single methods.
- Abstract(参考訳): 従来の事前学習された言語モデルの微調整は、すべてのモデルパラメータをチューニングし、下流タスク毎にフルモデルのコピーを格納する。
最近のパラメータ効率のよい言語モデルチューニング(pelt)メソッドは、トレーニング可能なパラメータがはるかに少ない微調整のパフォーマンスと一致し、トレーニングデータが制限された場合に特にうまく機能する。
しかし、異なるPELTメソッドは、同じタスクでかなり異なる動作をする可能性があるため、特に急速に増加する新しいPELTメソッドや下流タスクを考えると、特定のタスクに対して最も適切なメソッドを選択することは簡単ではない。
モデルの多様性とモデル選択の難しさを踏まえ、異なるpeltメソッドをサブモジュールとして組み込んだ統一フレームワークunipeltを提案し、現在のデータやタスクの設定に最も適したものをアクティベートする方法を学習する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定下での微調整よりも優れた個々のPELTメソッドと比較して、一貫して1~3ptのゲインを達成することである。
さらに、UniPELTは、各タスクで個別に使用する全てのサブモジュールの最高のパフォーマンスを取る際に、上限を超えることが多いため、複数のPELTメソッドの混合が本質的に単一のメソッドよりも効果的である可能性がある。
関連論文リスト
- Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [68.8128246362533]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
我々の重要な洞察は、共有知識とタスク固有の知識を識別して分離し、それらを動的に統合することで、パラメータ干渉問題を大幅に緩和できるということです。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Differentiable Entailment for Parameter Efficient Few Shot Learning [0.0]
本稿では,パラメータ効率を向上する新しい手法を提案する。
数ショット体制におけるパラメータ効率と性能のトレードオフを定量化する。
任意のタスクに拡張可能な,シンプルなモデルに依存しないアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-31T00:31:11Z) - General Framework for Self-Supervised Model Priming for
Parameter-Efficient Fine-tuning [54.47460770634613]
本稿では,パラメータ効率の高い手法の少数ショット適応とクロスドメイン一般化能力を高めるための汎用フレームワークを提案する。
本フレームワークでは,パラメータ効率向上のための自己教師型モデルを用いて,下流の諸課題に迅速に適応する。
我々は160種類のNLPタスクを含む数ショットのクロスドメインベンチマークで実験を行った。
論文 参考訳(メタデータ) (2022-12-02T08:56:53Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。