論文の概要: On Surgical Fine-tuning for Language Encoders
- arxiv url: http://arxiv.org/abs/2310.17041v1
- Date: Wed, 25 Oct 2023 22:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:04:47.206400
- Title: On Surgical Fine-tuning for Language Encoders
- Title(参考訳): 言語エンコーダの外科的微調整について
- Authors: Abhilasha Lodha, Gayatri Belapurkar, Saloni Chalkapurkar, Yuanming
Tao, Reshmi Ghosh, Samyadeep Basu, Dmitrii Petrov, Soundararajan Srinivasan
- Abstract要約: 異なる下流言語タスクでは、サブセットのレイヤのみを微調整すれば、言語エンコーダのすべてのレイヤを微調整するよりも、ほぼ近く、しばしば良いパフォーマンスが得られることを示す。
本稿では,フィッシャー情報行列(FIMスコア)の対角線に基づく効率的な計量法を提案し,選択的な微調整のための候補層を選択する。
- 参考スコア(独自算出の注目度): 2.3796105472622813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning all the layers of a pre-trained neural language encoder (either
using all the parameters or using parameter-efficient methods) is often the
de-facto way of adapting it to a new task. We show evidence that for different
downstream language tasks, fine-tuning only a subset of layers is sufficient to
obtain performance that is close to and often better than fine-tuning all the
layers in the language encoder. We propose an efficient metric based on the
diagonal of the Fisher information matrix (FIM score), to select the candidate
layers for selective fine-tuning. We show, empirically on GLUE and SuperGLUE
tasks and across distinct language encoders, that this metric can effectively
select layers leading to a strong downstream performance. Our work highlights
that task-specific information corresponding to a given downstream task is
often localized within a few layers, and tuning only those is sufficient for
strong performance. Additionally, we demonstrate the robustness of the FIM
score to rank layers in a manner that remains constant during the optimization
process.
- Abstract(参考訳): トレーニング済みのニューラルネットワークエンコーダのすべてのレイヤ(すべてのパラメータを使用するか、パラメータ効率のよいメソッドを使用する)を微調整することは、新しいタスクに適応するデファクトな方法であることが多い。
異なる下流言語タスクに対して、サブセットのレイヤのみを微調整すれば、言語エンコーダのすべてのレイヤを微調整するよりも、ほぼ近く、しばしば優れているパフォーマンスが得られることを示す。
本稿では,フィッシャー情報行列(FIMスコア)の対角線に基づく効率的な計量法を提案し,選択的な微調整のための候補層を選択する。
我々は,GLUEタスクとSuperGLUEタスク,および異なる言語エンコーダを実証的に比較し,このメトリックが,下流のパフォーマンス向上につながるレイヤを効果的に選択可能であることを示す。
私たちの研究は、特定のダウンストリームタスクに対応するタスク固有の情報は、しばしばいくつかのレイヤにローカライズされていることを強調しています。
さらに,FIMスコアが最適化プロセス中に一定であるように階層をランク付けすることのロバストさを実証する。
関連論文リスト
- Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning [0.08795040582681389]
大規模言語モデル (LLMs) は近年,プロンプトを用いた特殊タスクにおいて大きな人気を集めている。
本稿では,ランダムトークンの代わりに有意な単語を用いたプロンプトおよびプレフィックスチューニングのためのセマンティック知識チューニング(SK-Tuning)を提案する。
実験結果から,SK-Tuningは,テキスト分類や理解などのタスクにおいて,より高速なトレーニング時間,少ないパラメータ,優れたパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2024-10-11T07:55:09Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z) - Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model
Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。
SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文 参考訳(メタデータ) (2023-05-24T14:51:01Z) - Hidden State Variability of Pretrained Language Models Can Guide
Computation Reduction for Transfer Learning [16.60284838029852]
我々は、どのレイヤのサブセットに適応すべきか、タスク固有の選択ができるかどうかを検討する。
本稿では,タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて,階層を選択することを提案する。
論文 参考訳(メタデータ) (2022-10-18T17:58:43Z) - Probing for Understanding of English Verb Classes and Alternations in
Large Pre-trained Language Models [4.243426191555036]
本研究では,大規模事前学習言語モデルの埋め込みにおいて,動詞の交替クラスがエンコードされる範囲について検討する。
PLMのコンテキスト埋め込みは、多くのクラスにおけるタスクに対する驚くほど高い精度を実現する。
論文 参考訳(メタデータ) (2022-09-11T08:04:40Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Enhancing Transformers with Gradient Boosted Decision Trees for NLI
Fine-Tuning [7.906608953906889]
ニューラルネットワークによる余分な計算を行なわずに性能を向上させるために、微調整中に計算された機能にGBDTヘッドを装着するFreeGBDTを導入する。
強力なベースラインモデルを用いて,複数のNLIデータセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-05-08T22:31:51Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。