論文の概要: A Pairwise Probe for Understanding BERT Fine-Tuning on Machine Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2006.01346v1
- Date: Tue, 2 Jun 2020 02:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 00:48:07.467821
- Title: A Pairwise Probe for Understanding BERT Fine-Tuning on Machine Reading
Comprehension
- Title(参考訳): 機械読解におけるbert微調整理解のためのペアワイズプローブ
- Authors: Jie Cai, Zhengzhou Zhu, Ping Nie and Qian Liu
- Abstract要約: 本稿では,機械読解(MRC)タスクにおけるBERTの微調整を理解するためのペアワイズプローブを提案する。
ペアワイズ探索タスクにより、各レイヤの事前学習および微調整されたBERTの隠れ表現の性能を比較する。
我々の実験分析は、非常に自信のある結論をもたらす。
- 参考スコア(独自算出の注目度): 9.446041739364135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models have brought significant improvements to many NLP tasks
and have been extensively analyzed. But little is known about the effect of
fine-tuning on specific tasks. Intuitively, people may agree that a pre-trained
model already learns semantic representations of words (e.g. synonyms are
closer to each other) and fine-tuning further improves its capabilities which
require more complicated reasoning (e.g. coreference resolution, entity
boundary detection, etc). However, how to verify these arguments analytically
and quantitatively is a challenging task and there are few works focus on this
topic. In this paper, inspired by the observation that most probing tasks
involve identifying matched pairs of phrases (e.g. coreference requires
matching an entity and a pronoun), we propose a pairwise probe to understand
BERT fine-tuning on the machine reading comprehension (MRC) task. Specifically,
we identify five phenomena in MRC. According to pairwise probing tasks, we
compare the performance of each layer's hidden representation of pre-trained
and fine-tuned BERT. The proposed pairwise probe alleviates the problem of
distraction from inaccurate model training and makes a robust and quantitative
comparison. Our experimental analysis leads to highly confident conclusions:
(1) Fine-tuning has little effect on the fundamental and low-level information
and general semantic tasks. (2) For specific abilities required for downstream
tasks, fine-tuned BERT is better than pre-trained BERT and such gaps are
obvious after the fifth layer.
- Abstract(参考訳): 事前訓練されたモデルは多くのnlpタスクに大きな改善をもたらし、広範囲に分析されている。
しかし、微調整が特定のタスクに与える影響についてはほとんど分かっていない。
直感的には、事前訓練されたモデルは単語のセマンティック表現(例えば、同義語は互いに近い)を既に学習しており、微調整はより複雑な推論を必要とする能力(例えば、コア参照解決、エンティティ境界検出など)をさらに改善することに同意している。
しかし、これらの議論を分析的かつ定量的に検証する方法は難しい課題であり、この話題に焦点をあてる作業はほとんどない。
本稿では,一致した句のペアを識別する探索的タスク(例えば,コア参照ではエンティティと代名詞をマッチングする必要がある)に着想を得て,機械読解(MRC)タスクにおけるBERTの微調整を理解するためのペアワイズプローブを提案する。
具体的には, MRCの5つの現象を同定する。
ペアワイズ探索タスクにより、各レイヤの事前学習および微調整されたBERTの隠れ表現の性能を比較する。
提案するペアワイズプローブは,不正確なモデルトレーニングから逸脱する問題を軽減し,ロバストで定量的な比較を行う。
1)微調整は基本的な情報や低レベルの情報、一般的な意味的タスクにはほとんど影響を与えない。
2) 下流タスクに必要な特定の能力については, 細調整されたBERTの方が事前訓練されたBERTよりも優れており, 5層目以降のギャップは明らかである。
関連論文リスト
- Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs [37.754787051387034]
本稿では,ブレークポイントモデリングと呼ばれる表現学習フレームワークを提案する。
私たちのアプローチは、中間表現を構築するために、効率的でエンドツーエンドの方法でモデルをトレーニングします。
我々は,従来の表現学習手法よりも,T5に基づく主要なブレークポイント変換器の利点を示す。
論文 参考訳(メタデータ) (2022-11-15T07:28:14Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with
Transformer Encoders [17.74208462902158]
変圧器エンコーダ(MTL)を用いたマルチタスク学習は,密接に関連するタスクの性能向上のための強力な手法として登場した。
まず, POS, NER, DEP, CON, SRLの5つのNLPタスクに対してMTL結果を示す。
次に,MTLの作業において,特定の注意点がほとんどのタスクによって主張されることを示すために,広範囲なプルーニング解析を行う。
論文 参考訳(メタデータ) (2021-09-14T19:32:11Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Embedding Adaptation is Still Needed for Few-Shot Learning [25.4156194645678]
atgは、追加の人間知識なしにトレーニングおよびテストタスクセットを定義するための原則化されたクラスタリング手法である。
既存のベンチマークよりも容易で、相互に、あるいは難しいタスクセットを生成するためのATGの有効性を実証的に実証する。
グラデーションベースのメソッドは、転送が最も困難であるときに、メトリックベースのタスクを上回ることができます。
論文 参考訳(メタデータ) (2021-04-15T06:00:04Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。