論文の概要: Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models
- arxiv url: http://arxiv.org/abs/2301.04213v1
- Date: Tue, 10 Jan 2023 21:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:03:59.166089
- Title: Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models
- Title(参考訳): ローカライゼーションは編集をインフォームするか?
因果関係に基づく局所化と言語モデルにおける知識編集の相違
- Authors: Peter Hase, Mohit Bansal, Been Kim, Asma Ghandeharioun
- Abstract要約: 既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
モデル内の特定のパラメータに事実をローカライズすると、モデル内の知識をどこで操作するかがわかるので、これは驚きです。
- 参考スコア(独自算出の注目度): 77.62795862904632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are known to learn a great quantity of factual information
during pretraining, and recent work localizes this information to specific
model weights like mid-layer MLP weights (Meng et al., 2022). In this paper, we
find that we can change how a fact is stored in a model by editing weights that
are in a different location than where existing methods suggest that the fact
is stored. This is surprising because we would expect that localizing facts to
specific parameters in models would tell us where to manipulate knowledge in
models, and this assumption has motivated past work on model editing methods.
Specifically, we show that localization conclusions from representation
denoising (also known as Causal Tracing) do not provide any insight into which
model MLP layer would be best to edit in order to override an existing stored
fact with a new one. This finding raises questions about how past work relies
on Causal Tracing to select which model layers to edit (Meng et al., 2022).
Next, to better understand the discrepancy between representation denoising and
weight editing, we develop several variants of the editing problem that appear
more and more like representation denoising in their design and objective.
Experiments show that, for one of our editing problems, editing performance
does relate to localization results from representation denoising, but we find
that which layer we edit is a far better predictor of performance. Our results
suggest, counterintuitively, that better mechanistic understanding of how
pretrained language models work may not always translate to insights about how
to best change their behavior. Code is available at:
https://github.com/google/belief-localization
- Abstract(参考訳): 言語モデルは事前訓練中に大量の事実情報を学習することが知られており、最近の研究は、この情報を中層MLP重みなどの特定のモデル重みにローカライズしている(Meng et al., 2022)。
本稿では,既存の方法がモデルに格納されていることを示唆する重みと異なる位置にある重みを編集することで,モデル内の事実の保存方法を変更することが可能であることを示す。
これは、モデル内の特定のパラメータに事実をローカライズすることで、モデル内の知識をどこで操作するかがわかると期待できるためであり、この仮定はモデル編集方法に関する過去の研究を動機付けている。
具体的には、表現記述の局所化の結論(因果トレースとも呼ばれる)が、既存の保存された事実を新しいもので上書きするために、どのモデルMLP層を編集するのが最適かという洞察を与えていないことを示す。
この発見は、過去の作業がどのモデルレイヤを編集するかをCausal Tracingに頼っている(Meng et al., 2022)。
次に,表現の重み付けと重み付けの差異をよりよく理解するために,その設計と目的において表現の重み付けのように見える編集問題のいくつかの変種を考案する。
実験の結果,編集性能が表現の局所化結果と関係していることがわかったが,どのレイヤを編集するかは,より優れた性能予測因子であることが判明した。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
コードは、https://github.com/google/belief-localization.comで入手できる。
関連論文リスト
- "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language
Models [19.068525916876023]
モデル編集手法は,編集後のモデルバイアスを予期せず増幅する方法について検討する。
具体的には、人種、地理的起源、性別などの人口特性に関するバイアスに焦点を当てる。
編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。
論文 参考訳(メタデータ) (2024-02-29T23:11:55Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
提案手法は,下流タスク性能と強い相関を示す広範な実験により検証され,サロゲート指標としてパープレキシティを用いる。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing at Scale leads to Gradual and Catastrophic Forgetting [2.887477629420772]
本稿では,ROMEとMEMITの2つの手法に焦点をあてて,現在のモデル編集手法を大規模に評価する。
モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。
論文 参考訳(メタデータ) (2024-01-15T03:57:15Z) - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop
Questions [80.69639629733484]
編集されたモデルが正しい解答を行うかどうかを評価するマルチホップ質問を含むベンチマークMQuAKEを提案する。
本稿では,メモリベースのアプローチであるMeLLoを提案する。これは,編集された事実に整合した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。
論文 参考訳(メタデータ) (2023-05-24T06:48:41Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。