論文の概要: Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained
Language Models For Classification Tasks
- arxiv url: http://arxiv.org/abs/2204.04596v1
- Date: Sun, 10 Apr 2022 04:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 11:46:10.022938
- Title: Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained
Language Models For Classification Tasks
- Title(参考訳): 事前訓練された言語モデルの隠れ状態操作によるパラメータ効率の調整
- Authors: Haoran Yang, Piji Li, Wai Lam
- Abstract要約: トレーニング可能なベクトルを3つだけ導入する簡単なチューニング手法を提案する。
統合された隠れ状態(s)をタスク固有の線形分類器に入力し、カテゴリを予測する。
このスキームは、ELMoが隠された状態をLSTMベースのモデルに供給する以外は、隠された状態を利用する方法に似ている。
- 参考スコア(独自算出の注目度): 49.807185872741066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient tuning aims to distill knowledge for downstream tasks by
optimizing a few introduced parameters while freezing the pretrained language
models (PLMs). Continuous prompt tuning which prepends a few trainable vectors
to the embeddings of input is one of these methods and has drawn much attention
due to its effectiveness and efficiency. This family of methods can be
illustrated as exerting nonlinear transformations of hidden states inside PLMs.
However, a natural question is ignored: can the hidden states be directly used
for classification without changing them? In this paper, we aim to answer this
question by proposing a simple tuning method which only introduces three
trainable vectors. Firstly, we integrate all layers hidden states using the
introduced vectors. And then, we input the integrated hidden state(s) to a
task-specific linear classifier to predict categories. This scheme is similar
to the way ELMo utilises hidden states except that they feed the hidden states
to LSTM-based models. Although our proposed tuning scheme is simple, it
achieves comparable performance with prompt tuning methods like P-tuning and
P-tuning v2, verifying that original hidden states do contain useful
information for classification tasks. Moreover, our method has an advantage
over prompt tuning in terms of time and the number of parameters.
- Abstract(参考訳): パラメータ効率のチューニングは、事前学習された言語モデル(PLM)を凍結しながら、いくつかの導入パラメータを最適化することで、下流タスクの知識を抽出することを目的としている。
入力の埋め込みにいくつかの訓練可能なベクトルを前提とした連続的なプロンプトチューニングは、これらの手法の1つであり、その有効性と効率性から多くの注目を集めている。
この一連の手法はplm内の隠れた状態の非線形変換として表現することができる。
しかし、自然の疑問は無視される:隠された状態はそれらを変更せずに直接分類に使用できるか?
本稿では,3つのトレーニング可能なベクトルのみを導入する単純なチューニング手法を提案する。
まず、導入されたベクトルを用いて、すべての層を隠蔽状態に統合する。
そして、統合された隠れ状態(s)をタスク固有の線形分類器に入力してカテゴリを予測します。
このスキームは、ELMoが隠された状態をLSTMベースのモデルに供給する以外は、隠された状態を利用する方法に似ている。
提案手法は単純だが, P-tuning や P-tuning v2 などの迅速なチューニング手法により, 従来の隠れ状態が分類タスクに有用な情報を含んでいることを検証する。
さらに,提案手法は,時間とパラメータ数において,プロンプトチューニングよりも有利である。
関連論文リスト
- LoFiT: Localized Fine-tuning on LLM Representations [60.99814930367597]
LoFiT(Localized Fine-Tuning on LLM Representations)というフレームワークを導入する。
LoFiTは、特定のタスクを学習する上で最も重要なアテンションヘッドのサブセットを特定し、それからオフセットベクトルをトレーニングして、選択したヘッドでモデルの隠れ表現に追加する。
真理性や推論タスクにおいて,LoFiTの介入ベクトルは推論時間干渉などの表現介入手法のベクトルよりもLLM適応に有効であることがわかった。
論文 参考訳(メタデータ) (2024-06-03T17:45:41Z) - Manifold-based Verbalizer Space Re-embedding for Tuning-free
Prompt-based Classification [34.33544689818836]
そこで本研究では, クラス内制約付き局所線形埋め込み(Locally Linear Embedding) と呼ばれる, チューニング不要な多様体を用いた空間再埋め込み法を提案する。
我々の手法は、さらに3.2%までプロンプトベースのチューニングを強化する。
論文 参考訳(メタデータ) (2023-09-08T07:42:29Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Hidden State Variability of Pretrained Language Models Can Guide
Computation Reduction for Transfer Learning [16.60284838029852]
我々は、どのレイヤのサブセットに適応すべきか、タスク固有の選択ができるかどうかを検討する。
本稿では,タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて,階層を選択することを提案する。
論文 参考訳(メタデータ) (2022-10-18T17:58:43Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。