論文の概要: Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models
- arxiv url: http://arxiv.org/abs/2301.04213v2
- Date: Mon, 16 Oct 2023 17:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:38:31.178433
- Title: Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models
- Title(参考訳): ローカライゼーションは編集をインフォームするか?
因果関係に基づく局所化と言語モデルにおける知識編集の相違
- Authors: Peter Hase, Mohit Bansal, Been Kim, Asma Ghandeharioun
- Abstract要約: 既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
- 参考スコア(独自算出の注目度): 68.03946716358335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models learn a great quantity of factual information during
pretraining, and recent work localizes this information to specific model
weights like mid-layer MLP weights. In this paper, we find that we can change
how a fact is stored in a model by editing weights that are in a different
location than where existing methods suggest that the fact is stored. This is
surprising because we would expect that localizing facts to specific model
parameters would tell us where to manipulate knowledge in models, and this
assumption has motivated past work on model editing methods. Specifically, we
show that localization conclusions from representation denoising (also known as
Causal Tracing) do not provide any insight into which model MLP layer would be
best to edit in order to override an existing stored fact with a new one. This
finding raises questions about how past work relies on Causal Tracing to select
which model layers to edit. Next, we consider several variants of the editing
problem, including erasing and amplifying facts. For one of our editing
problems, editing performance does relate to localization results from
representation denoising, but we find that which layer we edit is a far better
predictor of performance. Our results suggest, counterintuitively, that better
mechanistic understanding of how pretrained language models work may not always
translate to insights about how to best change their behavior. Our code is
available at https://github.com/google/belief-localization
- Abstract(参考訳): 言語モデルは事前学習中に大量の事実情報を学習し、最近の研究は、この情報を中層MLP重みのような特定のモデル重みにローカライズしている。
本稿では,既存の方法がモデルに格納されていることを示唆する重みと異なる位置にある重みを編集することで,モデル内の事実の保存方法を変更することが可能であることを示す。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識をどこで操作するかがわかると期待できるので、これは驚くべきことです。
具体的には、表現記述の局所化の結論(因果トレースとも呼ばれる)が、既存の保存された事実を新しいもので上書きするために、どのモデルMLP層を編集するのが最適かという洞察を与えていないことを示す。
この発見は、過去の作業がどのモデルレイヤを編集するかを選択するためにCausal Tracingに依存するかという疑問を引き起こす。
次に,事実の消去や増幅など,編集問題の変種について考察する。
編集問題の一つでは,編集性能は表現の局所化結果と関係しているが,どのレイヤを編集するかは,より優れた性能予測因子であることが判明した。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
私たちのコードはhttps://github.com/google/belief-localizationで利用可能です。
関連論文リスト
- Should We Really Edit Language Models? On the Evaluation of Edited Language Models [15.63231238452797]
既存の編集手法は、一般的なベンチマークで必然的にパフォーマンスが低下する。
インストラクションチューニングされたモデルは、編集がより堅牢で、編集後の一般的な知識に対するパフォーマンス低下が少ない。
その結果,現在の編集手法は,言語モデル内の小規模な知識更新にのみ適していることがわかった。
論文 参考訳(メタデータ) (2024-10-24T14:36:48Z) - Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs? [61.68363765350178]
本稿では,モデル編集問題の標準的な定式化を批判し,モデル編集研究のための形式的テストベッドを提案する。
まず,(1) 問題の定義,(2) ベンチマークの開発,(3) LLM がそもそも編集可能な信念を持っていることを前提として,モデル編集における12のオープンな問題について述べる。
次に、Wikidataに基づくモデル編集のための半合成データセットを導入し、理想化されたベイズエージェントによって与えられるラベルに対する編集を評価する。
論文 参考訳(メタデータ) (2024-06-27T17:33:03Z) - WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models [78.22291694903659]
大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的応答を修正するために知識更新を必要とする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
記憶のギャップを埋めるためにWISEを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:35:52Z) - On Mechanistic Knowledge Localization in Text-to-Image Generative Models [44.208804082687294]
本稿では,テキスト・ツー・イメージモデルにおけるメカニスティック・ローカライゼーションの概念を紹介する。
UNetのクロスアテンション層に介入することで、中間層による出力生成に対する直接的な効果を計測する。
我々は、人気のあるオープンソーステキスト・ツー・イメージモデルにまたがる高速なクローズドフォーム編集手法であるLocoEditを採用している。
論文 参考訳(メタデータ) (2024-05-02T05:19:05Z) - "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models [17.77377809345631]
モデル編集手法は,編集後のモデルバイアスを予期せず増幅する方法について検討する。
具体的には、人種、地理的起源、性別などの人口特性に関するバイアスに焦点を当てる。
編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。
論文 参考訳(メタデータ) (2024-02-29T23:11:55Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。