論文の概要: BERTnesia: Investigating the capture and forgetting of knowledge in BERT
- arxiv url: http://arxiv.org/abs/2106.02902v1
- Date: Sat, 5 Jun 2021 14:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 03:21:32.500203
- Title: BERTnesia: Investigating the capture and forgetting of knowledge in BERT
- Title(参考訳): BERTnesia: BERTにおける知識の獲得と忘れ方を探る
- Authors: Jonas Wallat, Jaspreet Singh, Avishek Anand
- Abstract要約: 我々はBERTを探索し、そのパラメトリックメモリで捉えた関係知識を理解し、測定する。
以上の結果から,知識はBERTの最終層にのみ含まれていないことが明らかとなった。
BERTが微調整されると、関係知識は忘れられる。
- 参考スコア(独自算出の注目度): 7.304523502384361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probing complex language models has recently revealed several insights into
linguistic and semantic patterns found in the learned representations. In this
article, we probe BERT specifically to understand and measure the relational
knowledge it captures in its parametric memory. While probing for linguistic
understanding is commonly applied to all layers of BERT as well as fine-tuned
models, this has not been done for factual knowledge. We utilize existing
knowledge base completion tasks (LAMA) to probe every layer of pre-trained as
well as fine-tuned BERT models(ranking, question answering, NER). Our findings
show that knowledge is not just contained in BERT's final layers. Intermediate
layers contribute a significant amount (17-60%) to the total knowledge found.
Probing intermediate layers also reveals how different types of knowledge
emerge at varying rates. When BERT is fine-tuned, relational knowledge is
forgotten. The extent of forgetting is impacted by the fine-tuning objective
and the training data. We found that ranking models forget the least and retain
more knowledge in their final layer compared to masked language modeling and
question-answering. However, masked language modeling performed the best at
acquiring new knowledge from the training data. When it comes to learning
facts, we found that capacity and fact density are key factors. We hope this
initial work will spur further research into understanding the parametric
memory of language models and the effect of training objectives on factual
knowledge. The code to repeat the experiments is publicly available on GitHub.
- Abstract(参考訳): 複雑な言語モデルの探索は、最近、学習した表現に見られる言語的および意味的パターンに関するいくつかの洞察を明らかにした。
本稿では,そのパラメトリックメモリにおけるリレーショナル知識の理解と測定を目的としてBERTを探索する。
言語理解のための調査は、バートの全ての層と微調整されたモデルに一般的に適用されるが、事実の知識については行われていない。
既存の知識ベース補完タスク(LAMA)を用いて、事前訓練された全てのレイヤと微調整されたBERTモデル(ランキング、質問応答、NER)を探索する。
以上の結果から,知識はBERTの最終層にのみ含まれていないことがわかった。
中間層は、見いだされた全知識にかなりの量の(17-60%)寄与する。
中間層の探索はまた、異なる種類の知識が様々な速度でどのように現れるかを明らかにする。
BERTが微調整されると、関係知識は忘れられる。
忘れられる程度は、微調整目標とトレーニングデータによって影響を受ける。
ランキングモデルは、マスク付き言語モデリングや質問応答と比較して、最下位層の知識をほとんど忘れず、さらに多くの知識を保持できることが分かりました。
しかし、マスク付き言語モデリングはトレーニングデータから新たな知識を得るのに最善を尽くした。
事実の学習に関しては、キャパシティと事実密度が重要な要因であることが分かりました。
この最初の研究が、言語モデルのパラメトリック記憶と、訓練対象が事実的知識に与える影響を理解するためのさらなる研究を促進することを期待している。
実験を繰り返すコードはgithubで公開されている。
関連論文リスト
- Does Knowledge Localization Hold True? Surprising Differences Between Entity and Relation Perspectives in Language Models [20.157061521694096]
本研究では,知識編集による実体的知識と関係的知識の相違について検討する。
実体的知識と関係的知識の差異をさらに解明するために,関係的知識が事前学習されたモデルにどのように格納されているかを調べるために因果解析を用いる。
この洞察は、言語モデルにおける知識記憶の多面的な性質を強調し、これらのモデル内で特定の種類の知識を操作する複雑さを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-01T05:09:11Z) - How Large Language Models Encode Context Knowledge? A Layer-Wise Probing
Study [27.23388511249688]
本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。
探索データセットの構築にはChatGPTの強力な生成能力を活用する。
矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
論文 参考訳(メタデータ) (2024-02-25T11:15:42Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Knowledge Graph Fusion for Language Model Fine-tuning [0.0]
BERTの微調整段階における知識導入のメリットについて検討する。
既存のK-BERTモデルは、知識グラフから三つ子で文を豊かにするものであり、英語に適応している。
K-BERTに変更された英語は、他の単語ベースの言語にも拡張されている。
論文 参考訳(メタデータ) (2022-06-21T08:06:22Z) - Finding patterns in Knowledge Attribution for Transformers [1.52292571922932]
実験には12層多言語BERTモデルを用いる。
事実的知識の大部分は,ネットワークの中間層と上位層に起因している,と我々は考えている。
文法的知識に対する帰属スキームを適用すると、文法的知識は事実的知識よりもニューロン間ではるかに分散していることが分かる。
論文 参考訳(メタデータ) (2022-05-03T08:30:51Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - BERTnesia: Investigating the capture and forgetting of knowledge in BERT [5.849736173068868]
BERTは、取得した関係知識の理解と測定に特化しています。
中間層は、見いだされた全知識にかなりの量 (17-60%) を貢献する。
BERTが微調整された場合、関係知識は忘れられるが、その微調整の対象によって忘れられる範囲が影響を受ける。
論文 参考訳(メタデータ) (2020-10-19T08:46:30Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。