論文の概要: On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers
- arxiv url: http://arxiv.org/abs/2010.02616v1
- Date: Tue, 6 Oct 2020 10:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:28:15.225706
- Title: On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers
- Title(参考訳): 事前学習したトランスフォーマーにおける言語知識の微調整と文レベル探索の相互作用について
- Authors: Marius Mosbach, Anna Khokhlova, Michael A. Hedderich, Dietrich Klakow
- Abstract要約: 本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
- 参考スコア(独自算出の注目度): 24.858283637038422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pre-trained contextualized embedding models has become an
integral part of the NLP pipeline. At the same time, probing has emerged as a
way to investigate the linguistic knowledge captured by pre-trained models.
Very little is, however, understood about how fine-tuning affects the
representations of pre-trained models and thereby the linguistic knowledge they
encode. This paper contributes towards closing this gap. We study three
different pre-trained models: BERT, RoBERTa, and ALBERT, and investigate
through sentence-level probing how fine-tuning affects their representations.
We find that for some probing tasks fine-tuning leads to substantial changes in
accuracy, possibly suggesting that fine-tuning introduces or even removes
linguistic knowledge from a pre-trained model. These changes, however, vary
greatly across different models, fine-tuning and probing tasks. Our analysis
reveals that while fine-tuning indeed changes the representations of a
pre-trained model and these changes are typically larger for higher layers,
only in very few cases, fine-tuning has a positive effect on probing accuracy
that is larger than just using the pre-trained model with a strong pooling
method. Based on our findings, we argue that both positive and negative effects
of fine-tuning on probing require a careful interpretation.
- Abstract(参考訳): 微調整事前訓練されたコンテキスト適応型埋め込みモデルは、NLPパイプラインの不可欠な部分となっている。
同時に、事前訓練されたモデルによって得られた言語知識を調査する手段として、探索が出現している。
しかし、微調整が事前訓練されたモデルの表現にどのように影響するか、それによって符号化される言語知識についてはほとんど理解されていない。
本稿ではこのギャップを埋めることに寄与する。
bert,roberta,albertの3つの事前学習モデルを調査し,微調整が表現に与える影響を文レベルで検証した。
いくつかのタスクを微調整すると、精度が大幅に変化し、事前学習されたモデルから言語知識が導入されたり取り除いたりする可能性がある。
しかし、これらの変更は様々なモデル、微調整、探索タスクで大きく異なる。
解析の結果,事前学習モデルの表現は微調整が実際に変化し,これらの変化は高層では一般的に大きいが,ごくわずかな場合のみ,微調整は事前学習モデルの強いプーリング法を用いた場合よりも精度向上に寄与することが明らかとなった。
以上の結果から,微調整の正と負の双方が探究に及ぼす影響は慎重に解釈する必要があると論じる。
関連論文リスト
- An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z) - What Happens To BERT Embeddings During Fine-tuning? [19.016185902256826]
細調整がBERTモデルの表現に与える影響について検討する。
微調整は主にBERTの上位層に影響を与えるが、タスク間で注目すべきバリエーションがある。
特に、依存関係解析はモデルのほとんどを再構成するが、SQuADとMNLIはより浅い処理を伴っているように見える。
論文 参考訳(メタデータ) (2020-04-29T19:46:26Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。