論文の概要: WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14768v2
- Date: Mon, 07 Oct 2024 14:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:58.022513
- Title: WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models
- Title(参考訳): WISE:大規模言語モデルの生涯モデル編集における知識記憶の再考
- Authors: Peng Wang, Zexi Li, Ningyu Zhang, Ziwen Xu, Yunzhi Yao, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen,
- Abstract要約: 大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的応答を修正するために知識更新を必要とする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
記憶のギャップを埋めるためにWISEを提案する。
- 参考スコア(独自算出の注目度): 78.22291694903659
- License:
- Abstract: Large language models (LLMs) need knowledge updates to meet the ever-growing world facts and correct the hallucinated responses, facilitating the methods of lifelong model editing. Where the updated knowledge resides in memories is a fundamental question for model editing. In this paper, we find that editing either long-term memory (direct model parameters) or working memory (non-parametric knowledge of neural network activations/representations by retrieval) will result in an impossible triangle -- reliability, generalization, and locality can not be realized together in the lifelong editing settings. For long-term memory, directly editing the parameters will cause conflicts with irrelevant pretrained knowledge or previous edits (poor reliability and locality). For working memory, retrieval-based activations can hardly make the model understand the edits and generalize (poor generalization). Therefore, we propose WISE to bridge the gap between memories. In WISE, we design a dual parametric memory scheme, which consists of the main memory for the pretrained knowledge and a side memory for the edited knowledge. We only edit the knowledge in the side memory and train a router to decide which memory to go through when given a query. For continual editing, we devise a knowledge-sharding mechanism where different sets of edits reside in distinct subspaces of parameters, and are subsequently merged into a shared memory without conflicts. Extensive experiments show that WISE can outperform previous model editing methods and overcome the impossible triangle under lifelong model editing of question answering, hallucination, and out-of-distribution settings across trending LLM architectures, e.g., GPT, LLaMA, and Mistral. Code is available at https://github.com/zjunlp/EasyEdit.
- Abstract(参考訳): 大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的な応答を修正するために知識更新を必要とし、生涯にわたるモデル編集の方法を容易にする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
本稿では,長期記憶(直接モデルパラメータ)やワーキングメモリ(ニューラルネットワークアクティベーション/検索による表現の非パラメトリック知識)の編集が不可能な三角形となることを発見した。
長期記憶の場合、パラメータを直接編集すると、無関係な事前訓練された知識や以前の編集(信頼性と局所性)と衝突する。
ワーキングメモリでは、検索ベースのアクティベーションは、モデルを編集を理解して一般化させる(低次一般化)ことはほとんどできない。
そこで本研究では,記憶のギャップを埋めるためにWISEを提案する。
WISEでは、事前訓練された知識のための主記憶と、編集された知識のための副記憶からなる二重パラメトリックメモリ方式を設計する。
サイドメモリの知識を編集し、ルータをトレーニングして、クエリが与えられたときにどのメモリを経由するかを決めます。
連続的な編集のために、異なる編集セットがパラメータの異なる部分空間に存在する知識シャーディング機構を考案し、その後、競合なく共有メモリにマージする。
WISE は従来のモデル編集手法より優れており,質問応答,幻覚,分布外設定,例えば,GPT,LLaMA,Mistral といったトレンドな LLM アーキテクチャにおいて,寿命の長いモデル編集において不可能な三角形を克服することができる。
コードはhttps://github.com/zjunlp/EasyEdit.comで入手できる。
関連論文リスト
- Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning [30.554641380670315]
本稿では,生涯学習における編集効率と推論効率を向上させるために,ContInuous Prompt lEarning法であるRECIPEを紹介する。
RECIPEはまず、知識文をLLMの入力クエリの埋め込みにプレフィックスした、短くて情報的な連続的なプロンプトに変換する。
さらに、動的しきい値を計算するために仲介役として機能する知識センチネル(KS)を統合する。
我々のレトリバーとプロンプトエンコーダは、信頼性、一般性、局所性といった編集特性を達成するために共同で訓練されている。
論文 参考訳(メタデータ) (2024-05-06T08:52:11Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Larimar: Large Language Models with Episodic Memory Control [62.70727449128647]
Larimarは、分散エピソードメモリで大規模言語モデルを拡張するための、脳にインスパイアされたアーキテクチャである。
複数のファクト編集ベンチマークの実験結果は、Larimarが最も競争力のあるベースラインに匹敵する精度を達成したことを示している。
本稿では,Larimarを用いた選択的事実認識,情報漏洩防止,入力コンテキスト長の一般化のためのメカニズムを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:01:42Z) - Is it Possible to Edit Large Language Models Robustly? [60.36021686516329]
大型言語モデル(LLM)は、人間の振る舞いを模倣するコミュニケーションAIを構築する上で重要な役割を担っている。
近年の研究では、言語モデルの特定の記憶を操作し、関連する言語生成を変更するモデル編集の領域を掘り下げている。
この研究は、編集方法の強みと限界を理解し、コミュニケーションAIの堅牢で現実的な応用を促進する。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - History Matters: Temporal Knowledge Editing in Large Language Model [42.74144542674756]
本稿では,時間的知識編集(TKE)の課題を紹介し,現在のモデル編集手法を評価するためのベンチマークATOKeを確立する。
既存のモデル編集手法は、モデルに新しい知識を記憶させるのに有効であるが、編集されたモデルは歴史的知識を破滅的に忘れてしまう。
このギャップに対処するため,既存の編集モデルを改善するためのMulti-Editing with Time Objective (METO) という,シンプルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-09T07:51:56Z) - Massive Editing for Large Language Models via Meta Learning [27.972194696587813]
大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。
パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。
提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
論文 参考訳(メタデータ) (2023-11-08T13:03:06Z) - EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models [45.70959260613425]
本稿では,大規模言語モデルのための知識編集フレームワークであるEasyEditを提案する。
様々な最先端の知識編集アプローチをサポートし、よく知られたLLMにも容易に適用できる。
我々はLlaMA-2の知識編集結果をEasyEditで報告し、知識編集が従来の微調整よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-08-14T16:52:42Z) - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop
Questions [80.69639629733484]
編集されたモデルが正しい解答を行うかどうかを評価するマルチホップ質問を含むベンチマークMQuAKEを提案する。
本稿では,メモリベースのアプローチであるMeLLoを提案する。これは,編集された事実に整合した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。
論文 参考訳(メタデータ) (2023-05-24T06:48:41Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。