論文の概要: Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models
- arxiv url: http://arxiv.org/abs/2301.04213v1
- Date: Tue, 10 Jan 2023 21:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:03:59.166089
- Title: Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models
- Title(参考訳): ローカライゼーションは編集をインフォームするか?
因果関係に基づく局所化と言語モデルにおける知識編集の相違
- Authors: Peter Hase, Mohit Bansal, Been Kim, Asma Ghandeharioun
- Abstract要約: 既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
モデル内の特定のパラメータに事実をローカライズすると、モデル内の知識をどこで操作するかがわかるので、これは驚きです。
- 参考スコア(独自算出の注目度): 77.62795862904632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are known to learn a great quantity of factual information
during pretraining, and recent work localizes this information to specific
model weights like mid-layer MLP weights (Meng et al., 2022). In this paper, we
find that we can change how a fact is stored in a model by editing weights that
are in a different location than where existing methods suggest that the fact
is stored. This is surprising because we would expect that localizing facts to
specific parameters in models would tell us where to manipulate knowledge in
models, and this assumption has motivated past work on model editing methods.
Specifically, we show that localization conclusions from representation
denoising (also known as Causal Tracing) do not provide any insight into which
model MLP layer would be best to edit in order to override an existing stored
fact with a new one. This finding raises questions about how past work relies
on Causal Tracing to select which model layers to edit (Meng et al., 2022).
Next, to better understand the discrepancy between representation denoising and
weight editing, we develop several variants of the editing problem that appear
more and more like representation denoising in their design and objective.
Experiments show that, for one of our editing problems, editing performance
does relate to localization results from representation denoising, but we find
that which layer we edit is a far better predictor of performance. Our results
suggest, counterintuitively, that better mechanistic understanding of how
pretrained language models work may not always translate to insights about how
to best change their behavior. Code is available at:
https://github.com/google/belief-localization
- Abstract(参考訳): 言語モデルは事前訓練中に大量の事実情報を学習することが知られており、最近の研究は、この情報を中層MLP重みなどの特定のモデル重みにローカライズしている(Meng et al., 2022)。
本稿では,既存の方法がモデルに格納されていることを示唆する重みと異なる位置にある重みを編集することで,モデル内の事実の保存方法を変更することが可能であることを示す。
これは、モデル内の特定のパラメータに事実をローカライズすることで、モデル内の知識をどこで操作するかがわかると期待できるためであり、この仮定はモデル編集方法に関する過去の研究を動機付けている。
具体的には、表現記述の局所化の結論(因果トレースとも呼ばれる)が、既存の保存された事実を新しいもので上書きするために、どのモデルMLP層を編集するのが最適かという洞察を与えていないことを示す。
この発見は、過去の作業がどのモデルレイヤを編集するかをCausal Tracingに頼っている(Meng et al., 2022)。
次に,表現の重み付けと重み付けの差異をよりよく理解するために,その設計と目的において表現の重み付けのように見える編集問題のいくつかの変種を考案する。
実験の結果,編集性能が表現の局所化結果と関係していることがわかったが,どのレイヤを編集するかは,より優れた性能予測因子であることが判明した。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
コードは、https://github.com/google/belief-localization.comで入手できる。
関連論文リスト
- Should We Really Edit Language Models? On the Evaluation of Edited Language Models [15.63231238452797]
既存の編集手法は、一般的なベンチマークで必然的にパフォーマンスが低下する。
インストラクションチューニングされたモデルは、編集がより堅牢で、編集後の一般的な知識に対するパフォーマンス低下が少ない。
その結果,現在の編集手法は,言語モデル内の小規模な知識更新にのみ適していることがわかった。
論文 参考訳(メタデータ) (2024-10-24T14:36:48Z) - Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs? [61.68363765350178]
本稿では,モデル編集問題の標準的な定式化を批判し,モデル編集研究のための形式的テストベッドを提案する。
まず,(1) 問題の定義,(2) ベンチマークの開発,(3) LLM がそもそも編集可能な信念を持っていることを前提として,モデル編集における12のオープンな問題について述べる。
次に、Wikidataに基づくモデル編集のための半合成データセットを導入し、理想化されたベイズエージェントによって与えられるラベルに対する編集を評価する。
論文 参考訳(メタデータ) (2024-06-27T17:33:03Z) - WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models [78.22291694903659]
大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的応答を修正するために知識更新を必要とする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
記憶のギャップを埋めるためにWISEを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:35:52Z) - On Mechanistic Knowledge Localization in Text-to-Image Generative Models [44.208804082687294]
本稿では,テキスト・ツー・イメージモデルにおけるメカニスティック・ローカライゼーションの概念を紹介する。
UNetのクロスアテンション層に介入することで、中間層による出力生成に対する直接的な効果を計測する。
我々は、人気のあるオープンソーステキスト・ツー・イメージモデルにまたがる高速なクローズドフォーム編集手法であるLocoEditを採用している。
論文 参考訳(メタデータ) (2024-05-02T05:19:05Z) - "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models [17.77377809345631]
モデル編集手法は,編集後のモデルバイアスを予期せず増幅する方法について検討する。
具体的には、人種、地理的起源、性別などの人口特性に関するバイアスに焦点を当てる。
編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。
論文 参考訳(メタデータ) (2024-02-29T23:11:55Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。