論文の概要: SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering
- arxiv url: http://arxiv.org/abs/2401.17809v3
- Date: Tue, 23 Apr 2024 01:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:16:06.706814
- Title: SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering
- Title(参考訳): SWEA:主語埋め込みによる大規模言語モデルにおけるファクチュアル知識の更新
- Authors: Xiaopeng Li, Shasha Li, Shezheng Song, Huijun Liu, Bin Ji, Xi Wang, Jun Ma, Jie Yu, Xiaodong Liu, Jing Wang, Weimin Zhang,
- Abstract要約: 最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
- 参考スコア(独自算出の注目度): 17.20346072074533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The general capabilities of large language models (LLMs) make them the infrastructure for various AI applications, but updating their inner knowledge requires significant resources. Recent model editing is a promising technique for efficiently updating a small amount of knowledge of LLMs and has attracted much attention. In particular, local editing methods, which directly update model parameters, are more suitable for updating a small amount of knowledge. Local editing methods update weights by computing least squares closed-form solutions and identify edited knowledge by vector-level matching in inference, which achieve promising results. However, these methods still require a lot of time and resources to complete the computation. Moreover, vector-level matching lacks reliability, and such updates disrupt the original organization of the model's parameters. To address these issues, we propose an detachable and expandable Subject Word Embedding Altering (SWEA) framework, which finds the editing embeddings through token-level matching and adds them to the subject word embeddings in Transformer input. To get these editing embeddings, we propose optimizing then suppressing fusion method, which first optimizes learnable embedding vectors for the editing target and then suppresses the Knowledge Embedding Dimensions (KEDs) to obtain final editing embeddings. We thus propose SWEA$\oplus$OS method for editing factual knowledge in LLMs. We demonstrate the overall state-of-the-art (SOTA) performance of SWEA$\oplus$OS on the \textsc{CounterFact} and zsRE datasets. To further validate the reasoning ability of SWEA$\oplus$OS in editing knowledge, we evaluate it on the more complex \textsc{RippleEdits} benchmark. The results demonstrate that SWEA$\oplus$OS possesses SOTA reasoning ability.
- Abstract(参考訳): 大規模言語モデル(LLM)の一般的な機能により、さまざまなAIアプリケーションの基盤となるが、内部知識の更新にはかなりのリソースが必要になる。
近年のモデル編集は,LLMの少数の知識を効率的に更新する上で有望な手法であり,注目を集めている。
特に、モデルパラメータを直接更新するローカル編集手法は、少量の知識を更新するのにより適している。
局所的な編集手法は最小二乗閉形式解を計算して重みを更新し、ベクトルレベルの推論による編集知識を同定し、有望な結果を得る。
しかし、これらの手法は計算を完了するのに多くの時間とリソースを必要とする。
さらに、ベクトルレベルのマッチングは信頼性に欠けており、そのような更新はモデルのパラメータの本来の構成を阻害する。
これらの問題に対処するために、トークンレベルのマッチングによる編集の埋め込みを見つけ、Transformer 入力にサブジェクトワードの埋め込みを追加する、分離可能で拡張可能なサブジェクトワード埋め込み(SWEA)フレームワークを提案する。
編集対象に対する学習可能な埋め込みベクトルを最適化し、次に知識埋め込み次元(KED)を抑圧し、最終的な編集埋め込みを得る。
そこで我々は,LSMにおける事実知識を編集するためのSWEA$\oplus$OS法を提案する。
SWEA$\oplus$OSのSOTA(State-of-the-art)パフォーマンスを,textsc{CounterFact} および zsRE データセット上で示す。
SWEA$\oplus$OSの編集知識の推論能力を更に検証するため、より複雑な \textsc{RippleEdits} ベンチマークで評価した。
その結果,SWEA$\oplus$OSはSOTA推論能力を有することがわかった。
関連論文リスト
- Editing Conceptual Knowledge for Large Language Models [67.8410749469755]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
提案手法は,下流タスク性能と強い相関を示す広範な実験により検証され,サロゲート指標としてパープレキシティを用いる。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA [34.21194537887934]
ニューロンインデクシング動的LoRA(MELO)に基づくプラグインモデル編集手法を提案する。
提案するMELOは,3つの逐次編集タスクにおける最先端の編集性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T02:11:01Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - DUnE: Dataset for Unified Editing [3.7346004746366384]
自然言語文を編集するDUnE-an編集ベンチマークを導入する。
検索強化言語モデリングは、特殊な編集技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T18:56:14Z) - Massive Editing for Large Language Models via Meta Learning [27.972194696587813]
大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。
パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。
提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
論文 参考訳(メタデータ) (2023-11-08T13:03:06Z) - Improving Factual Consistency in Summarization with Compression-Based
Post-Editing [146.24839415743358]
この問題に対処するためのモデルに依存しない方法は、生成された要約を後編集することであることを示す。
本稿では,文圧縮データを用いて後編集モデルを訓練し,特別なトークンでマークされた外在的エンティティエラーを要約する手法を提案する。
我々は,このモデルがROUGEを維持しながら事実整合性を向上し,XSum上でのエンティティ精度を最大30%向上し,他のポストエディタ上でも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-11T13:35:38Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。