論文の概要: WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14768v3
- Date: Thu, 19 Dec 2024 02:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:29:05.860179
- Title: WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models
- Title(参考訳): WISE:大規模言語モデルの生涯モデル編集における知識記憶の再考
- Authors: Peng Wang, Zexi Li, Ningyu Zhang, Ziwen Xu, Yunzhi Yao, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen,
- Abstract要約: 大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的応答を修正するために知識更新を必要とする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
記憶のギャップを埋めるためにWISEを提案する。
- 参考スコア(独自算出の注目度): 78.22291694903659
- License:
- Abstract: Large language models (LLMs) need knowledge updates to meet the ever-growing world facts and correct the hallucinated responses, facilitating the methods of lifelong model editing. Where the updated knowledge resides in memories is a fundamental question for model editing. In this paper, we find that editing either long-term memory (direct model parameters) or working memory (non-parametric knowledge of neural network activations/representations by retrieval) will result in an impossible triangle -- reliability, generalization, and locality can not be realized together in the lifelong editing settings. For long-term memory, directly editing the parameters will cause conflicts with irrelevant pretrained knowledge or previous edits (poor reliability and locality). For working memory, retrieval-based activations can hardly make the model understand the edits and generalize (poor generalization). Therefore, we propose WISE to bridge the gap between memories. In WISE, we design a dual parametric memory scheme, which consists of the main memory for the pretrained knowledge and a side memory for the edited knowledge. We only edit the knowledge in the side memory and train a router to decide which memory to go through when given a query. For continual editing, we devise a knowledge-sharding mechanism where different sets of edits reside in distinct subspaces of parameters, and are subsequently merged into a shared memory without conflicts. Extensive experiments show that WISE can outperform previous model editing methods and overcome the impossible triangle under lifelong model editing of question answering, hallucination, and out-of-distribution settings across trending LLM architectures, e.g., GPT, LLaMA, and Mistral. Code is available at https://github.com/zjunlp/EasyEdit.
- Abstract(参考訳): 大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的な応答を修正するために知識更新を必要とし、生涯にわたるモデル編集の方法を容易にする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
本稿では,長期記憶(直接モデルパラメータ)やワーキングメモリ(ニューラルネットワークアクティベーション/検索による表現の非パラメトリック知識)の編集が不可能な三角形となることを発見した。
長期記憶の場合、パラメータを直接編集すると、無関係な事前訓練された知識や以前の編集(信頼性と局所性)と衝突する。
ワーキングメモリでは、検索ベースのアクティベーションは、モデルを編集を理解して一般化させる(低次一般化)ことはほとんどできない。
そこで本研究では,記憶のギャップを埋めるためにWISEを提案する。
WISEでは、事前訓練された知識のための主記憶と、編集された知識のための副記憶からなる二重パラメトリックメモリ方式を設計する。
サイドメモリの知識を編集し、ルータをトレーニングして、クエリが与えられたときにどのメモリを経由するかを決めます。
連続的な編集のために、異なる編集セットがパラメータの異なる部分空間に存在する知識シャーディング機構を考案し、その後、競合なく共有メモリにマージする。
WISE は従来のモデル編集手法より優れており,質問応答,幻覚,分布外設定,例えば,GPT,LLaMA,Mistral といったトレンドな LLM アーキテクチャにおいて,寿命の長いモデル編集において不可能な三角形を克服することができる。
コードはhttps://github.com/zjunlp/EasyEdit.comで入手できる。
関連論文リスト
- AnyEdit: Edit Any Knowledge Encoded in Language Models [69.30638272162267]
大規模言語モデル(LLM)のための新しい自動回帰編集パラダイムであるAnyEditを提案する。
長い形式の知識を逐次チャンクに分解し、各チャンク内のキートークンを反復的に編集し、一貫性と正確な出力を保証する。
UnKEBench、AKEW、そして我々の長文の多様な知識のための新しいEditEverythingデータセットを含むベンチマークでは、強いベースラインを21.5%上回っている。
論文 参考訳(メタデータ) (2025-02-08T16:18:37Z) - ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。
本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - Knowledge in Superposition: Unveiling the Failures of Lifelong Knowledge Editing for Large Language Models [19.357663224043534]
知識編集は、大規模な言語モデルにおいて、時代遅れまたは誤った知識を更新することを目的としている。
現在の知識編集手法は生涯編集のスケーラビリティに限界がある。
本研究は,生涯編集において知識編集が失敗する根本的な理由を考察する。
論文 参考訳(メタデータ) (2024-08-14T09:43:32Z) - Has this Fact been Edited? Detecting Knowledge Edits in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:24Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。
実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - On the Robustness of Editing Large Language Models [57.477943944826904]
大型言語モデル(LLM)はコミュニケーションAIの構築において重要な役割を担っているが、効率的な更新の課題に直面している。
この研究は、編集方法の長所と短所を理解し、コミュニケーション型AIの実践的応用を促進することを目的としている。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。