論文の概要: What Happens To BERT Embeddings During Fine-tuning?
- arxiv url: http://arxiv.org/abs/2004.14448v1
- Date: Wed, 29 Apr 2020 19:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:02:11.004848
- Title: What Happens To BERT Embeddings During Fine-tuning?
- Title(参考訳): 微調整中にBERTの埋め込みがどうなるか?
- Authors: Amil Merchant, Elahe Rahimtoroghi, Ellie Pavlick, Ian Tenney
- Abstract要約: 細調整がBERTモデルの表現に与える影響について検討する。
微調整は主にBERTの上位層に影響を与えるが、タスク間で注目すべきバリエーションがある。
特に、依存関係解析はモデルのほとんどを再構成するが、SQuADとMNLIはより浅い処理を伴っているように見える。
- 参考スコア(独自算出の注目度): 19.016185902256826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there has been much recent work studying how linguistic information is
encoded in pre-trained sentence representations, comparatively little is
understood about how these models change when adapted to solve downstream
tasks. Using a suite of analysis techniques (probing classifiers,
Representational Similarity Analysis, and model ablations), we investigate how
fine-tuning affects the representations of the BERT model. We find that while
fine-tuning necessarily makes significant changes, it does not lead to
catastrophic forgetting of linguistic phenomena. We instead find that
fine-tuning primarily affects the top layers of BERT, but with noteworthy
variation across tasks. In particular, dependency parsing reconfigures most of
the model, whereas SQuAD and MNLI appear to involve much shallower processing.
Finally, we also find that fine-tuning has a weaker effect on representations
of out-of-domain sentences, suggesting room for improvement in model
generalization.
- Abstract(参考訳): 事前学習された文表現で言語情報がどのようにエンコードされるかの研究は近年行われてきたが、下流のタスクに適応してこれらのモデルがどのように変化するかについては、比較的理解されていない。
分類器,表現類似性解析,モデルアブレーションといった一連の分析手法を用いて,bertモデルの表現に微調整がどのように影響するかを検討する。
微調整は必然的に大きな変化をもたらすが、言語現象を破滅的に忘れてしまうことはない。
代わりに、細調整はBERTの上位層に主に影響するが、タスク間で注目すべきバリエーションがある。
特に、依存関係解析はモデルのほとんどを再構成するが、SQuADとMNLIはより浅い処理を必要とする。
最後に、ファインチューニングがドメイン外文の表現に弱い影響を持つことも分かり、モデル一般化の改善の余地が示唆された。
関連論文リスト
- Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Probing the Category of Verbal Aspect in Transformer Language Models [0.4757470449749875]
事前訓練された言語モデルがロシア語のアスペクトの文法的カテゴリーをどう符号化するかを検討する。
代替および非代替的な文脈でBERTとRoBERTaを用いて探索を行う。
実験ではBERTとRoBERTaがアスペクトをエンコードしている。
論文 参考訳(メタデータ) (2024-06-04T14:06:03Z) - Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and
Evaluation [35.72916406365469]
数ショットの微調整とコンテキスト内学習の一般化と,データセットへの挑戦を比較した。
この結果から,微調整言語モデルがドメイン外をうまく一般化できることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T13:55:17Z) - HyPe: Better Pre-trained Language Model Fine-tuning with Hidden
Representation Perturbation [50.90457644954857]
トランスフォーマー層を隠蔽した表現を摂動することで問題を緩和する,シンプルで効果的な微調整手法であるHyPeを提案する。
我々はGLUEや他の自然言語推論データセットに関する広範な実験と分析を行う。
その結果,HyPeはバニラ微調整より優れ,異なる層からの隠蔽表現の一般化が促進されることがわかった。
論文 参考訳(メタデータ) (2022-12-17T11:56:21Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - A Closer Look at How Fine-tuning Changes BERT [21.23284793831221]
我々は,英語のBERTファミリーを研究し,空間の微調整がいかに変化するかを分析するために2つの探索手法を用いた。
実験の結果,ラベルに関連する点を他のラベルから切り離すことで,微調整により性能が向上することがわかった。
微調整前後の表現を比較することで、微調整が任意に表現を変更せず、代わりに元の構造を保ちながら下流のタスクに表現を調整できることが分かる。
論文 参考訳(メタデータ) (2021-06-27T17:01:43Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-10-06T10:54:00Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。