論文の概要: Editing Factual Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2104.08164v1
- Date: Fri, 16 Apr 2021 15:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:39:42.490632
- Title: Editing Factual Knowledge in Language Models
- Title(参考訳): 言語モデルにおけるファクチュアル知識の編集
- Authors: Nicola De Cao, Wilker Aziz, Ivan Titov
- Abstract要約: 本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
- 参考スコア(独自算出の注目度): 51.947280241185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The factual knowledge acquired during pretraining and stored in the
parameters of Language Models (LM) can be useful in downstream tasks (e.g.,
question answering or textual inference). However, some facts can be
incorrectly induced or become obsolete over time. We present KnowledgeEditor, a
method that can be used to edit this knowledge and, thus, fix 'bugs' or
unexpected predictions without the need for expensive re-training or
fine-tuning. Besides being computationally efficient, KnowledgeEditor does not
require any modifications in LM pre-training (e.g., the use of meta-learning).
In our approach, we train a hyper-network with constrained optimization to
modify a fact without affecting the rest of the knowledge; the trained
hyper-network is then used to predict the weight update at test time. We show
KnowledgeEditor's efficacy with two popular architectures and
knowledge-intensive tasks: i) a BERT model fine-tuned for fact-checking, and
ii) a sequence-to-sequence BART model for question answering. With our method,
changing a prediction on the specific wording of a query tends to result in a
consistent change in predictions also for its paraphrases. We show that this
can be further encouraged by exploiting (e.g., automatically-generated)
paraphrases during training. Interestingly, our hyper-network can be regarded
as a 'probe' revealing which components of a model need to be changed to
manipulate factual knowledge; our analysis shows that the updates tend to be
concentrated on a small subset of components. Code at
https://github.com/nicola-decao/KnowledgeEditor
- Abstract(参考訳): 言語モデル(LM)のパラメーターに格納された事前学習中に得られた事実知識は、下流のタスク(例えば、質問応答やテキスト推論)に有用である。
しかし、一部の事実は誤って引き起こされたり、時代とともに廃れたりすることがある。
本稿では,この知識の編集に使用できるKnowledgeEditorを提案する。これにより,高価なリトレーニングや微調整を必要とせずに,‘バグ’や予期せぬ予測を修正できる。
計算的に効率的であることに加えて、KnowledgeEditorはLM事前学習(メタラーニングの使用など)の修正を必要としない。
提案手法では,制約付き最適化を用いてハイパーネットワークをトレーニングし,他の知識に影響を与えずに事実を修正する。
本稿では,2つの一般的なアーキテクチャと知識集約型タスクを用いて,知識編集者の有効性を示す:i)事実チェック用に微調整されたBERTモデル,i)質問応答のためのシーケンス・ツー・シーケンスBARTモデル。
提案手法では,クエリの特定の単語の予測を変更すると,そのパラフレーズに対して一貫した予測が変化する傾向がある。
トレーニング中のパラフレーズ(自動生成など)の活用によって、これをさらに促進できることを示します。
興味深いことに、我々のハイパーネットワークは、実際の知識を操作するためにモデルのどのコンポーネントを変更する必要があるかを明らかにする「プローブ」と見なすことができる。
Code at https://github.com/nicola-decao/KnowledgeEditor
関連論文リスト
- Detecting Edited Knowledge in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:24Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - On the Robustness of Editing Large Language Models [57.477943944826904]
大型言語モデル(LLM)はコミュニケーションAIの構築において重要な役割を担っているが、効率的な更新の課題に直面している。
この研究は、編集方法の長所と短所を理解し、コミュニケーション型AIの実践的応用を促進することを目的としている。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - Massive Editing for Large Language Models via Meta Learning [27.972194696587813]
大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。
パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。
提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
論文 参考訳(メタデータ) (2023-11-08T13:03:06Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - K-XLNet: A General Method for Combining Explicit Knowledge with Language
Model Pretraining [5.178964604577459]
明示的な知識を活用することで、モデルの事前訓練を改善することに重点を置いています。
具体的には、まず知識グラフ(KG)から知識事実をマッチングし、次に直接変換器に知識命令層を追加する。
実験の結果,変圧器に外部知識を加えるだけで,多くのNLPタスクにおける学習性能が向上することが示された。
論文 参考訳(メタデータ) (2021-03-25T06:14:18Z) - Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。
LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。
我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文 参考訳(メタデータ) (2020-06-29T06:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。