論文の概要: On Surgical Fine-tuning for Language Encoders
- arxiv url: http://arxiv.org/abs/2310.17041v1
- Date: Wed, 25 Oct 2023 22:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:04:47.206400
- Title: On Surgical Fine-tuning for Language Encoders
- Title(参考訳): 言語エンコーダの外科的微調整について
- Authors: Abhilasha Lodha, Gayatri Belapurkar, Saloni Chalkapurkar, Yuanming
Tao, Reshmi Ghosh, Samyadeep Basu, Dmitrii Petrov, Soundararajan Srinivasan
- Abstract要約: 異なる下流言語タスクでは、サブセットのレイヤのみを微調整すれば、言語エンコーダのすべてのレイヤを微調整するよりも、ほぼ近く、しばしば良いパフォーマンスが得られることを示す。
本稿では,フィッシャー情報行列(FIMスコア)の対角線に基づく効率的な計量法を提案し,選択的な微調整のための候補層を選択する。
- 参考スコア(独自算出の注目度): 2.3796105472622813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning all the layers of a pre-trained neural language encoder (either
using all the parameters or using parameter-efficient methods) is often the
de-facto way of adapting it to a new task. We show evidence that for different
downstream language tasks, fine-tuning only a subset of layers is sufficient to
obtain performance that is close to and often better than fine-tuning all the
layers in the language encoder. We propose an efficient metric based on the
diagonal of the Fisher information matrix (FIM score), to select the candidate
layers for selective fine-tuning. We show, empirically on GLUE and SuperGLUE
tasks and across distinct language encoders, that this metric can effectively
select layers leading to a strong downstream performance. Our work highlights
that task-specific information corresponding to a given downstream task is
often localized within a few layers, and tuning only those is sufficient for
strong performance. Additionally, we demonstrate the robustness of the FIM
score to rank layers in a manner that remains constant during the optimization
process.
- Abstract(参考訳): トレーニング済みのニューラルネットワークエンコーダのすべてのレイヤ(すべてのパラメータを使用するか、パラメータ効率のよいメソッドを使用する)を微調整することは、新しいタスクに適応するデファクトな方法であることが多い。
異なる下流言語タスクに対して、サブセットのレイヤのみを微調整すれば、言語エンコーダのすべてのレイヤを微調整するよりも、ほぼ近く、しばしば優れているパフォーマンスが得られることを示す。
本稿では,フィッシャー情報行列(FIMスコア)の対角線に基づく効率的な計量法を提案し,選択的な微調整のための候補層を選択する。
我々は,GLUEタスクとSuperGLUEタスク,および異なる言語エンコーダを実証的に比較し,このメトリックが,下流のパフォーマンス向上につながるレイヤを効果的に選択可能であることを示す。
私たちの研究は、特定のダウンストリームタスクに対応するタスク固有の情報は、しばしばいくつかのレイヤにローカライズされていることを強調しています。
さらに,FIMスコアが最適化プロセス中に一定であるように階層をランク付けすることのロバストさを実証する。
関連論文リスト
- Sparsify-then-Classify: From Internal Neurons of Large Language Models
To Efficient Text Classifiers [4.81502049551298]
本稿では,全ての活性化状態と隠蔽状態に複数のプーリング戦略を適用することで,すべての内部表現を利用する手法を提案する。
我々の新しい軽量戦略であるSparsify-then-Classify (STC) は、まずタスク固有の機能を階層ごとに分散し、次にテキスト分類のために階層に集約する。
モデルとデータセットの包括的集合に関する実験により、STCは事前訓練されたモデルと微調整されたモデルの分類性能を一貫して改善するだけでなく、トレーニングと推論の両方においてより効率的であり、本質的に解釈可能であることが示された。
論文 参考訳(メタデータ) (2023-11-27T16:28:20Z) - Language and Task Arithmetic with Parameter-Efficient Layers for
Zero-Shot Summarization [133.32769609168605]
本稿では,言語やタスク特化パラメータを構成することで,ゼロショットの言語間移動を改善することを提案する。
本手法は,言語とタスクPEFTモジュールを要素演算により構成し,ラベルなしデータと英語ラベル付きデータを活用する。
論文 参考訳(メタデータ) (2023-11-15T20:04:58Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z) - Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model
Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。
SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文 参考訳(メタデータ) (2023-05-24T14:51:01Z) - Hidden State Variability of Pretrained Language Models Can Guide
Computation Reduction for Transfer Learning [16.60284838029852]
我々は、どのレイヤのサブセットに適応すべきか、タスク固有の選択ができるかどうかを検討する。
本稿では,タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて,階層を選択することを提案する。
論文 参考訳(メタデータ) (2022-10-18T17:58:43Z) - Probing for Understanding of English Verb Classes and Alternations in
Large Pre-trained Language Models [4.243426191555036]
本研究では,大規模事前学習言語モデルの埋め込みにおいて,動詞の交替クラスがエンコードされる範囲について検討する。
PLMのコンテキスト埋め込みは、多くのクラスにおけるタスクに対する驚くほど高い精度を実現する。
論文 参考訳(メタデータ) (2022-09-11T08:04:40Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Enhancing Transformers with Gradient Boosted Decision Trees for NLI
Fine-Tuning [7.906608953906889]
ニューラルネットワークによる余分な計算を行なわずに性能を向上させるために、微調整中に計算された機能にGBDTヘッドを装着するFreeGBDTを導入する。
強力なベースラインモデルを用いて,複数のNLIデータセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-05-08T22:31:51Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。