論文の概要: Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models
- arxiv url: http://arxiv.org/abs/2301.04213v2
- Date: Mon, 16 Oct 2023 17:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:38:31.178433
- Title: Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models
- Title(参考訳): ローカライゼーションは編集をインフォームするか?
因果関係に基づく局所化と言語モデルにおける知識編集の相違
- Authors: Peter Hase, Mohit Bansal, Been Kim, Asma Ghandeharioun
- Abstract要約: 既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
- 参考スコア(独自算出の注目度): 68.03946716358335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models learn a great quantity of factual information during
pretraining, and recent work localizes this information to specific model
weights like mid-layer MLP weights. In this paper, we find that we can change
how a fact is stored in a model by editing weights that are in a different
location than where existing methods suggest that the fact is stored. This is
surprising because we would expect that localizing facts to specific model
parameters would tell us where to manipulate knowledge in models, and this
assumption has motivated past work on model editing methods. Specifically, we
show that localization conclusions from representation denoising (also known as
Causal Tracing) do not provide any insight into which model MLP layer would be
best to edit in order to override an existing stored fact with a new one. This
finding raises questions about how past work relies on Causal Tracing to select
which model layers to edit. Next, we consider several variants of the editing
problem, including erasing and amplifying facts. For one of our editing
problems, editing performance does relate to localization results from
representation denoising, but we find that which layer we edit is a far better
predictor of performance. Our results suggest, counterintuitively, that better
mechanistic understanding of how pretrained language models work may not always
translate to insights about how to best change their behavior. Our code is
available at https://github.com/google/belief-localization
- Abstract(参考訳): 言語モデルは事前学習中に大量の事実情報を学習し、最近の研究は、この情報を中層MLP重みのような特定のモデル重みにローカライズしている。
本稿では,既存の方法がモデルに格納されていることを示唆する重みと異なる位置にある重みを編集することで,モデル内の事実の保存方法を変更することが可能であることを示す。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識をどこで操作するかがわかると期待できるので、これは驚くべきことです。
具体的には、表現記述の局所化の結論(因果トレースとも呼ばれる)が、既存の保存された事実を新しいもので上書きするために、どのモデルMLP層を編集するのが最適かという洞察を与えていないことを示す。
この発見は、過去の作業がどのモデルレイヤを編集するかを選択するためにCausal Tracingに依存するかという疑問を引き起こす。
次に,事実の消去や増幅など,編集問題の変種について考察する。
編集問題の一つでは,編集性能は表現の局所化結果と関係しているが,どのレイヤを編集するかは,より優れた性能予測因子であることが判明した。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
私たちのコードはhttps://github.com/google/belief-localizationで利用可能です。
関連論文リスト
- "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language
Models [19.068525916876023]
モデル編集手法は,編集後のモデルバイアスを予期せず増幅する方法について検討する。
具体的には、人種、地理的起源、性別などの人口特性に関するバイアスに焦点を当てる。
編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。
論文 参考訳(メタデータ) (2024-02-29T23:11:55Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
提案手法は,下流タスク性能と強い相関を示す広範な実験により検証され,サロゲート指標としてパープレキシティを用いる。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing at Scale leads to Gradual and Catastrophic Forgetting [2.887477629420772]
本稿では,ROMEとMEMITの2つの手法に焦点をあてて,現在のモデル編集手法を大規模に評価する。
モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。
論文 参考訳(メタデータ) (2024-01-15T03:57:15Z) - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop
Questions [80.69639629733484]
編集されたモデルが正しい解答を行うかどうかを評価するマルチホップ質問を含むベンチマークMQuAKEを提案する。
本稿では,メモリベースのアプローチであるMeLLoを提案する。これは,編集された事実に整合した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。
論文 参考訳(メタデータ) (2023-05-24T06:48:41Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。