論文の概要: Hidden State Variability of Pretrained Language Models Can Guide
Computation Reduction for Transfer Learning
- arxiv url: http://arxiv.org/abs/2210.10041v1
- Date: Tue, 18 Oct 2022 17:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:02:11.155335
- Title: Hidden State Variability of Pretrained Language Models Can Guide
Computation Reduction for Transfer Learning
- Title(参考訳): トランスファー学習における事前学習言語モデルの隠れ状態可変性が計算量削減を導く
- Authors: Shuo Xie, Jiahao Qiu, Ankita Pasad, Li Du, Qing Qu and Hongyuan Mei
- Abstract要約: 我々は、どのレイヤのサブセットに適応すべきか、タスク固有の選択ができるかどうかを検討する。
本稿では,タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて,階層を選択することを提案する。
- 参考スコア(独自算出の注目度): 16.60284838029852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While transferring a pretrained language model, common approaches
conventionally attach their task-specific classifiers to the top layer and
adapt all the pretrained layers. We investigate whether one could make a
task-specific selection on which subset of the layers to adapt and where to
place the classifier. The goal is to reduce the computation cost of transfer
learning methods (e.g. fine-tuning or adapter-tuning) without sacrificing its
performance.
We propose to select layers based on the variability of their hidden states
given a task-specific corpus. We say a layer is already ``well-specialized'' in
a task if the within-class variability of its hidden states is low relative to
the between-class variability. Our variability metric is cheap to compute and
doesn't need any training or hyperparameter tuning. It is robust to data
imbalance and data scarcity. Extensive experiments on the GLUE benchmark
demonstrate that selecting layers based on our metric can yield significantly
stronger performance than using the same number of top layers and often match
the performance of fine-tuning or adapter-tuning the entire language model.
- Abstract(参考訳): トレーニング済みの言語モデルを転送する際、一般的なアプローチでは、タスク固有の分類器をトップ層にアタッチして、トレーニング済みのすべてのレイヤに適応する。
我々は,どの層に適応すべきか,どの層に分類器を置くべきかを,タスク固有の選択が可能であるかどうかを検討する。
目標は、パフォーマンスを犠牲にすることなく、転送学習方法(微調整やアダプタチューニングなど)の計算コストを削減することである。
タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて階層を選択することを提案する。
隠された状態のクラス内変数が、クラス間変数と比較して低い場合、すでにある層は ' well-specialized' である。
私たちの可変性メトリクスは計算が安く、トレーニングやハイパーパラメータチューニングは不要です。
データ不均衡とデータの不足に対して堅牢である。
glueベンチマークの広範な実験により、私たちの測定値に基づいたレイヤの選択は、同じ数のトップレイヤを使用するよりも大幅にパフォーマンスが向上し、言語モデル全体の微調整やアダプタチューニングのパフォーマンスにマッチすることが多いことが分かりました。
関連論文リスト
- Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning [5.119396962985841]
中間的タスク伝達学習はモデル性能を大幅に向上させることができる。
12kのソース・ターゲット対を用いたNLPタスク転送性とタスク選択に関する最大の研究を行う。
事前の手法でESMを適用すると、それぞれ10と278の因子による実行時間とディスクスペースの使用量が減少する。
論文 参考訳(メタデータ) (2024-10-19T16:22:04Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - On Surgical Fine-tuning for Language Encoders [2.3796105472622813]
異なる下流言語タスクでは、サブセットのレイヤのみを微調整すれば、言語エンコーダのすべてのレイヤを微調整するよりも、ほぼ近く、しばしば良いパフォーマンスが得られることを示す。
本稿では,フィッシャー情報行列(FIMスコア)の対角線に基づく効率的な計量法を提案し,選択的な微調整のための候補層を選択する。
論文 参考訳(メタデータ) (2023-10-25T22:42:30Z) - Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained
Language Models For Classification Tasks [49.807185872741066]
トレーニング可能なベクトルを3つだけ導入する簡単なチューニング手法を提案する。
統合された隠れ状態(s)をタスク固有の線形分類器に入力し、カテゴリを予測する。
このスキームは、ELMoが隠された状態をLSTMベースのモデルに供給する以外は、隠された状態を利用する方法に似ている。
論文 参考訳(メタデータ) (2022-04-10T04:14:02Z) - Composable Sparse Fine-Tuning for Cross-Lingual Transfer [56.86192078426372]
事前学習されたモデルのパラメータを微調整することが、伝達学習の主流のアプローチとなっている。
本稿では,これら2つの望ましい特性を持つファインチューニング手法を提案する。
これは、ゼロショットのクロスランガル転送において、大きなマージンでアダプタを上回ります。
論文 参考訳(メタデータ) (2021-10-14T17:27:29Z) - Robust Transfer Learning with Pretrained Language Models through
Adapters [40.45102278979193]
BERTのような大きな事前訓練された言語モデルによる伝達学習は、ほとんどのNLPタスクにおいて支配的なアプローチとなっている。
これらの問題を緩和するために, 単純かつ効果的なアダプタベースのアプローチを提案する。
実験により,このような学習手法が,様々な下流タスクへの伝達学習における安定性と対角的堅牢性の向上につながることが示された。
論文 参考訳(メタデータ) (2021-08-05T02:30:13Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot
Learning [76.98364915566292]
一般的なプラクティスは、まずベースセット上でモデルをトレーニングし、その後、微調整によって新しいクラスに移行することである。
本稿では,基本モデル内の特定の層を凍結あるいは微調整することにより,部分的知識の伝達を提案する。
提案手法の有効性を実証するために, CUB と mini-ImageNet の広範な実験を行った。
論文 参考訳(メタデータ) (2021-02-08T03:27:05Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。
この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文 参考訳(メタデータ) (2020-04-30T17:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。