論文の概要: Propagating Knowledge Updates to LMs Through Distillation
- arxiv url: http://arxiv.org/abs/2306.09306v1
- Date: Thu, 15 Jun 2023 17:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 13:25:08.787582
- Title: Propagating Knowledge Updates to LMs Through Distillation
- Title(参考訳): 蒸留によるLMの知識更新の促進
- Authors: Shankar Padmanabhan, Yasumasa Onoe, Michael J.Q. Zhang, Greg Durrett,
Eunsol Choi
- Abstract要約: 文脈に基づくアプローチは、エンティティに関する知識を付与し、その知識を広めてより広範な推論を可能にすることができることを示す。
実験により,本手法は,微調整や他の勾配に基づく知識編集手法と比較して,知識更新の伝播に有効であることが示された。
- 参考スコア(独自算出の注目度): 72.63368052592004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models have the capacity to store and use immense amounts of
knowledge about real-world entities, but it remains unclear how to update their
implicit "knowledge bases.'' While prior methods for updating knowledge in LMs
successfully inject facts, updated LMs then fail to make inferences based on
these injected facts. In this work, we demonstrate that a context
distillation-based approach can both impart knowledge about entities and
propagate that knowledge to enable broader inferences. Our approach consists of
two stages: transfer set generation and distillation on the transfer set. We
first generate a transfer set by simply prompting a language model to generate
a continuation from the entity definition. Then, we update the model parameters
so that the distribution of the LM (the student) matches the distribution of
the LM conditioned on the definition (the teacher) on the transfer set. Our
experiments demonstrate that this approach is more effective in propagating
knowledge updates compared to fine-tuning and other gradient-based
knowledge-editing methods without compromising performance in other contexts,
even when injecting the definitions of up to 150 entities at once.
- Abstract(参考訳): 現代の言語モデルは、現実世界のエンティティに関する膨大な知識を蓄積し、使用する能力を持っていますが、暗黙の"知識ベース"を更新する方法はまだ不明です。
LMの知識を更新する以前の方法は事実をインジェクトできたが、更新されたLMはこれらのインジェクトされた事実に基づいて推論を行わなかった。
本研究では, 文脈蒸留に基づくアプローチが, 実体に関する知識を付与し, より広い推論を可能にするためにその知識を伝播させることを実証する。
提案手法は, トランスファーセット生成とトランスファーセットの蒸留の2段階からなる。
まず、言語モデルにエンティティ定義から継続を生成するように促すことで、転送セットを生成します。
次に、モデルパラメータを更新することで、lm(学生)の分布が、転送集合上の定義(教師)に条件付けられたlmの分布と一致するようにする。
実験の結果,最大150個のエンティティの定義を一度に注入しても,他のコンテキストでの性能を損なうことなく,微調整や他の勾配に基づく知識編集手法と比較して,知識更新の伝播に有効であることが示された。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。
LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。
我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文 参考訳(メタデータ) (2020-06-29T06:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。