論文の概要: Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge
- arxiv url: http://arxiv.org/abs/2305.01651v1
- Date: Tue, 2 May 2023 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:21:15.720859
- Title: Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge
- Title(参考訳): LMは記述から新しいエンティティを学ぶことができるか?
注入知識の伝播の課題
- Authors: Yasumasa Onoe, Michael J.Q. Zhang, Shankar Padmanabhan, Greg Durrett,
Eunsol Choi
- Abstract要約: 我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
- 参考スコア(独自算出の注目度): 72.63368052592004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (LMs) are used for knowledge intensive tasks like
question answering, but their knowledge gets continuously outdated as the world
changes. Prior work has studied targeted updates to LMs, injecting individual
facts and evaluating whether the model learns these facts while not changing
predictions on other contexts. We take a step forward and study LMs' abilities
to make inferences based on injected facts (or propagate those facts): for
example, after learning that something is a TV show, does an LM predict that
you can watch it? We study this with two cloze-style tasks: an existing dataset
of real-world sentences about novel entities (ECBD) as well as a new controlled
benchmark with manually designed templates requiring varying levels of
inference about injected knowledge. Surprisingly, we find that existing methods
for updating knowledge (gradient-based fine-tuning and modifications of this
approach) show little propagation of injected knowledge. These methods improve
performance on cloze instances only when there is lexical overlap between
injected facts and target inferences. Yet, prepending entity definitions in an
LM's context improves performance across all settings, suggesting that there is
substantial headroom for parameter-updating approaches for knowledge injection.
- Abstract(参考訳): 事前訓練された言語モデル(LM)は質問応答のような知識集約的なタスクに使用されるが、世界が変わるにつれてその知識は時代遅れになる。
従来の研究は、LMのターゲットとなる更新を調査し、個々の事実を注入し、モデルが他の文脈で予測を変えずにこれらの事実を学習するかどうかを評価する。
例えば、何かがテレビ番組であることを知った後、LMはそれを見ることができると予測しますか?
本研究では,新しいエンティティ(ECBD)に関する実世界の文のデータセットと,インジェクションされた知識に関する様々なレベルの推論を必要とするテンプレートを手作業で設計した新しい制御されたベンチマークの2つを用いてこれを研究する。
驚いたことに、既存の知識更新手法(このアプローチの段階的な微調整と修正)は、注入された知識の伝播がほとんどない。
これらの方法は、注入された事実とターゲット推論の間に語彙的重複がある場合にのみ、clozeインスタンスのパフォーマンスを改善する。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善し、知識注入のためのパラメータ更新アプローチにはかなりのヘッドルームがあることを示唆している。
関連論文リスト
- Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - Novel-WD: Exploring acquisition of Novel World Knowledge in LLMs Using Prefix-Tuning [2.8972337324168014]
本研究では, PLMが学習し, 学習前コーパスで発生しない新たな世界知識事実を記憶する方法について検討する。
我々はまず,最近のウィキデータ更新から抽出された新しい事実を含む文からなる新しいデータセットであるNove-WDを提案する。
このデータセットをコミュニティに無償で提供し、その後、最新情報を備えた類似データセットの新バージョンを構築する手順をリリースします。
論文 参考訳(メタデータ) (2024-08-30T07:54:50Z) - Detecting Edited Knowledge in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:24Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Propagating Knowledge Updates to LMs Through Distillation [97.3628651636153]
文脈に基づくアプローチは、エンティティに関する知識を付与し、その知識を広めてより広範な推論を可能にすることができることを示す。
実験により,本手法は,微調整や他の勾配に基づく知識編集手法よりも,知識更新の伝播に有効であることが実証された。
論文 参考訳(メタデータ) (2023-06-15T17:39:50Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Enhancing Language Models with Plug-and-Play Large-Scale Commonsense [2.1248439796866228]
テキストコモンセンス知識を用いて言語モデル(LM)を強化する方法について検討する。
事前学習を行わない大規模コモンセンス統合のためのプラグアンドプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-09-06T16:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。