論文の概要: PMET: Precise Model Editing in a Transformer
- arxiv url: http://arxiv.org/abs/2308.08742v1
- Date: Thu, 17 Aug 2023 02:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:15:17.986943
- Title: PMET: Precise Model Editing in a Transformer
- Title(参考訳): PMET: トランスによる精密モデル編集
- Authors: Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, and Jie Yu
- Abstract要約: PMETはTransformer Component (TC) の隠蔽状態を同時に最適化するが、FFNの最適化されたTC隠蔽状態のみを用いてFFN重みを正確に更新する。
実験の結果,PMET はtextsccounterfact と zsRE の両方のデータセットに対して最先端の性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 11.741471408378517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model editing techniques modify a minor proportion of knowledge in Large
Language Models (LLMs) at a relatively low cost, which have demonstrated
notable success. Existing methods assume Transformer Layer (TL) hidden states
are values of key-value memories of the Feed-Forward Network (FFN). They
usually optimize the TL hidden states to memorize target knowledge and use it
to update the weights of the FFN in LLMs. However, the information flow of TL
hidden states comes from three parts: Multi-Head Self-Attention (MHSA), FFN,
and residual connections. Existing methods neglect the fact that the TL hidden
states contains information not specifically required for FFN. Consequently,
the performance of model editing decreases. To achieve more precise model
editing, we analyze hidden states of MHSA and FFN, finding that MHSA encodes
certain general knowledge extraction patterns. This implies that MHSA weights
do not require updating when new knowledge is introduced. Based on above
findings, we introduce PMET, which simultaneously optimizes Transformer
Component (TC, namely MHSA and FFN) hidden states, while only using the
optimized TC hidden states of FFN to precisely update FFN weights. Our
experiments demonstrate that PMET exhibits state-of-the-art performance on both
the \textsc{counterfact} and zsRE datasets. Our ablation experiments
substantiate the effectiveness of our enhancements, further reinforcing the
finding that the MHSA encodes certain general knowledge extraction patterns and
indicating its storage of a small amount of factual knowledge. Our code is
available at \url{https://github.com/xpq-tech/PMET.git}.
- Abstract(参考訳): モデル編集技術は、比較的低コストでLLM(Large Language Models)の知識の少なさを修正し、顕著な成功を収めた。
既存の手法では、トランスフォーマー層(tl)隠れ状態がフィードフォワードネットワーク(ffn)のキー値記憶値であると仮定している。
彼らは通常、目標知識を記憶し、llmにおけるffnの重み付けを更新するためにtl隠れ状態を最適化する。
しかしながら、tl隠れ状態の情報フローは、マルチヘッドセルフアテンション(mhsa)、ffn、残余接続の3つの部分から来ている。
既存の方法は、TL隠蔽状態がFFNに特に必要でない情報を含んでいるという事実を無視している。
これにより、モデル編集の性能が低下する。
より正確なモデル編集を実現するために,MHSAとFFNの隠れ状態を解析し,MHSAが特定の一般的な知識抽出パターンを符号化していることを確認した。
これは、MHSAの重み付けが新しい知識が導入されたときに更新を必要としないことを意味する。
以上の結果から, PMET は Transformer Component (TC, MHSA と FFN) の隠蔽状態を同時に最適化すると同時に, FFN の隠蔽状態を最適化して FFN の重みを正確に更新する。
実験の結果,PMET は \textsc{counterfact} と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。
我々のアブレーション実験は、MHSAが特定の一般的な知識抽出パターンを符号化し、少量の事実知識の蓄積を示すことの発見をさらに強化し、拡張の有効性を裏付けるものである。
私たちのコードは \url{https://github.com/xpq-tech/PMET.git} で利用可能です。
関連論文リスト
- $\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。
最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。
第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。
第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs [48.32113486904612]
本稿では,FKA-Owlを提案する。FKA-Owlは,偽情報を利用した大規模視覚言語モデル(LVLM)の拡張のためのフレームワークである。
パブリックベンチマークの実験では、FKA-Owlは従来の手法よりも優れたクロスドメイン性能を達成している。
論文 参考訳(メタデータ) (2024-03-04T12:35:09Z) - E-Sparse: Boosting the Large Language Model Inference through Entropy-based N:M Sparsity [6.434967516411846]
隠れ状態特徴の情報エントロピーをプルーニング計量設計、すなわちE-Sparseに導入する。
E-Sparseはチャネルの重要性を活用するために情報豊かさを使用し、さらにいくつかの新しいテクニックを取り入れて効果を発揮させる。
E-Sparseは、高密度モデル(最大1.53X)に対するモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できる。
論文 参考訳(メタデータ) (2023-10-24T15:27:15Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文 参考訳(メタデータ) (2023-03-25T03:31:46Z) - Unveiling The Mask of Position-Information Pattern Through the Mist of
Image Features [75.62755703738696]
近年の研究では、畳み込みニューラルネットワークにおけるパディングが絶対位置情報を符号化していることが示されている。
位置情報の強度を定量化する既存の指標は信頼性が低いままである。
符号化された位置情報を計測(および可視化)するための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。