論文の概要: BERTnesia: Investigating the capture and forgetting of knowledge in BERT
- arxiv url: http://arxiv.org/abs/2010.09313v2
- Date: Wed, 8 Sep 2021 13:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:38:30.563362
- Title: BERTnesia: Investigating the capture and forgetting of knowledge in BERT
- Title(参考訳): BERTnesia: BERTにおける知識の獲得と忘れ方を探る
- Authors: Jonas Wallat, Jaspreet Singh, Avishek Anand
- Abstract要約: BERTは、取得した関係知識の理解と測定に特化しています。
中間層は、見いだされた全知識にかなりの量 (17-60%) を貢献する。
BERTが微調整された場合、関係知識は忘れられるが、その微調整の対象によって忘れられる範囲が影響を受ける。
- 参考スコア(独自算出の注目度): 5.849736173068868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probing complex language models has recently revealed several insights into
linguistic and semantic patterns found in the learned representations. In this
paper, we probe BERT specifically to understand and measure the relational
knowledge it captures. We utilize knowledge base completion tasks to probe
every layer of pre-trained as well as fine-tuned BERT (ranking, question
answering, NER). Our findings show that knowledge is not just contained in
BERT's final layers. Intermediate layers contribute a significant amount
(17-60%) to the total knowledge found. Probing intermediate layers also reveals
how different types of knowledge emerge at varying rates. When BERT is
fine-tuned, relational knowledge is forgotten but the extent of forgetting is
impacted by the fine-tuning objective but not the size of the dataset. We found
that ranking models forget the least and retain more knowledge in their final
layer. We release our code on github to repeat the experiments.
- Abstract(参考訳): 複雑な言語モデルの探索は、最近、学習した表現に見られる言語的および意味的パターンに関するいくつかの洞察を明らかにした。
本稿では,BERTが取得した関係知識を特に理解し,測定するために調査する。
我々は知識ベース完了タスクを使用して、事前訓練されたすべてのレイヤと微調整されたBERT(ランキング、質問応答、NER)を探索する。
以上の結果から,知識はBERTの最終層にのみ含まれていないことがわかった。
中間層は、見いだされた全知識にかなりの量の(17-60%)寄与する。
中間層の探索はまた、異なる種類の知識が様々な速度でどのように現れるかを明らかにする。
BERTが微調整されると、リレーショナル知識は忘れられるが、忘れられる範囲は微調整の対象によって影響を受けるが、データセットのサイズには影響しない。
ランキングモデルはほとんど忘れず、最終層でより多くの知識を保っていることがわかった。
実験を繰り返すために、githubにコードをリリースします。
関連論文リスト
- Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - BERTnesia: Investigating the capture and forgetting of knowledge in BERT [7.304523502384361]
我々はBERTを探索し、そのパラメトリックメモリで捉えた関係知識を理解し、測定する。
以上の結果から,知識はBERTの最終層にのみ含まれていないことが明らかとなった。
BERTが微調整されると、関係知識は忘れられる。
論文 参考訳(メタデータ) (2021-06-05T14:23:49Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Towards Interpreting BERT for Reading Comprehension Based QA [19.63539594339302]
BERTとその変種は様々なNLPタスクで最先端のパフォーマンスを達成した。
本研究は, BERT を読解型質問文に解釈しようとするものである。
初期レイヤは問合せと問合せのインタラクションに重点を置いているのに対して,後期レイヤは文脈理解に重点を置いて回答予測を強化している。
論文 参考訳(メタデータ) (2020-10-18T13:33:49Z) - Layer-wise Guided Training for BERT: Learning Incrementally Refined
Document Representations [11.46458298316499]
本研究では, 細管BERTの構造化手法を提案する。
具体的には、大規模マルチラベルテキスト分類(LMTC)に焦点を当てる。
我々のアプローチは、特定の階層レベルからラベルを予測するために、特定のBERT層をガイドする。
論文 参考訳(メタデータ) (2020-10-12T14:56:22Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z) - What's so special about BERT's layers? A closer look at the NLP pipeline
in monolingual and multilingual models [18.155121103400333]
オランダのNLPタスクに対して,オランダのBERTベースモデルと多言語BERTモデルを提案する。
音声のタグ付けをより深く分析することにより、与えられたタスク内でも、情報がネットワークの異なる部分に分散されていることを示す。
論文 参考訳(メタデータ) (2020-04-14T13:41:48Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z) - BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT [53.63288887672302]
変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
論文 参考訳(メタデータ) (2020-01-25T13:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。