論文の概要: PMET: Precise Model Editing in a Transformer
- arxiv url: http://arxiv.org/abs/2308.08742v2
- Date: Tue, 22 Aug 2023 03:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 20:17:57.153244
- Title: PMET: Precise Model Editing in a Transformer
- Title(参考訳): PMET: トランスによる精密モデル編集
- Authors: Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, and Jie Yu
- Abstract要約: PMETはTransformer Component (TC) の隠蔽状態を同時に最適化するが、FFNの最適化されたTC隠蔽状態のみを用いてFFN重みを正確に更新する。
実験の結果,PMET は COUNTERFACT と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 11.741471408378517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model editing techniques modify a minor proportion of knowledge in Large
Language Models (LLMs) at a relatively low cost, which have demonstrated
notable success. Existing methods assume Transformer Layer (TL) hidden states
are values of key-value memories of the Feed-Forward Network (FFN). They
usually optimize the TL hidden states to memorize target knowledge and use it
to update the weights of the FFN in LLMs. However, the information flow of TL
hidden states comes from three parts: Multi-Head Self-Attention (MHSA), FFN,
and residual connections. Existing methods neglect the fact that the TL hidden
states contains information not specifically required for FFN. Consequently,
the performance of model editing decreases. To achieve more precise model
editing, we analyze hidden states of MHSA and FFN, finding that MHSA encodes
certain general knowledge extraction patterns. This implies that MHSA weights
do not require updating when new knowledge is introduced. Based on above
findings, we introduce PMET, which simultaneously optimizes Transformer
Component (TC, namely MHSA and FFN) hidden states, while only using the
optimized TC hidden states of FFN to precisely update FFN weights. Our
experiments demonstrate that PMET exhibits state-of-the-art performance on both
the COUNTERFACT and zsRE datasets. Our ablation experiments substantiate the
effectiveness of our enhancements, further reinforcing the finding that the
MHSA encodes certain general knowledge extraction patterns and indicating its
storage of a small amount of factual knowledge. Our code is available at
https://github.com/xpq-tech/PMET.git.
- Abstract(参考訳): モデル編集技術は、比較的低コストでLLM(Large Language Models)の知識の少なさを修正し、顕著な成功を収めた。
既存の手法では、トランスフォーマー層(tl)隠れ状態がフィードフォワードネットワーク(ffn)のキー値記憶値であると仮定している。
彼らは通常、目標知識を記憶し、llmにおけるffnの重み付けを更新するためにtl隠れ状態を最適化する。
しかしながら、tl隠れ状態の情報フローは、マルチヘッドセルフアテンション(mhsa)、ffn、残余接続の3つの部分から来ている。
既存の方法は、TL隠蔽状態がFFNに特に必要でない情報を含んでいるという事実を無視している。
これにより、モデル編集の性能が低下する。
より正確なモデル編集を実現するために,MHSAとFFNの隠れ状態を解析し,MHSAが特定の一般的な知識抽出パターンを符号化していることを確認した。
これは、MHSAの重み付けが新しい知識が導入されたときに更新を必要としないことを意味する。
以上の結果から, PMET は Transformer Component (TC, MHSA と FFN) の隠蔽状態を同時に最適化すると同時に, FFN の隠蔽状態を最適化して FFN の重みを正確に更新する。
実験の結果,PMET は COUNTERFACT と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。
我々のアブレーション実験は、MHSAが特定の一般的な知識抽出パターンを符号化し、少量の事実知識の蓄積を示すことの発見をさらに強化し、拡張の有効性を裏付けるものである。
私たちのコードはhttps://github.com/xpq-tech/pmet.gitで入手できる。
関連論文リスト
- MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [49.276940875825126]
CNNフェースフォージェリ検出器と比較して、VT法はトランスの表現性を生かし、優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
MoE-FFDは軽量のローランド適応(LoRA)層とアダプタ層のみを更新し、ViTバックボーンは凍結されている。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Empirical Study on Updating Key-Value Memories in Transformer
Feed-forward Layers [27.636372947415186]
トランスにおけるフィードフォワードネットワーク(FFN)は、抽象的な高レベルの知識を復元するキーバリューニューラルメモリのグループとして認識される。
我々は、キー(FFNs層の第1層)または値の更新に関する実証的アブレーション研究を行う。
我々はこれらの2つの手法を、様々な知識編集と大規模言語モデルの微調整タスクで比較し、FFNの理解を深めるために洞察を引き出す。
論文 参考訳(メタデータ) (2024-02-19T15:42:54Z) - E-Sparse: Boosting the Large Language Model Inference through Entropy-based N:M Sparsity [6.434967516411846]
隠れ状態特徴の情報エントロピーをプルーニング計量設計、すなわちE-Sparseに導入する。
E-Sparseはチャネルの重要性を活用するために情報豊かさを使用し、さらにいくつかの新しいテクニックを取り入れて効果を発揮させる。
E-Sparseは、高密度モデル(最大1.53X)に対するモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できる。
論文 参考訳(メタデータ) (2023-10-24T15:27:15Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Propagating Knowledge Updates to LMs Through Distillation [97.3628651636153]
文脈に基づくアプローチは、エンティティに関する知識を付与し、その知識を広めてより広範な推論を可能にすることができることを示す。
実験により,本手法は,微調整や他の勾配に基づく知識編集手法よりも,知識更新の伝播に有効であることが実証された。
論文 参考訳(メタデータ) (2023-06-15T17:39:50Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文 参考訳(メタデータ) (2023-03-25T03:31:46Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z) - Unveiling The Mask of Position-Information Pattern Through the Mist of
Image Features [75.62755703738696]
近年の研究では、畳み込みニューラルネットワークにおけるパディングが絶対位置情報を符号化していることが示されている。
位置情報の強度を定量化する既存の指標は信頼性が低いままである。
符号化された位置情報を計測(および可視化)するための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。