論文の概要: Norm Growth and Stability Challenges in Localized Sequential Knowledge Editing
- arxiv url: http://arxiv.org/abs/2502.19416v1
- Date: Wed, 26 Feb 2025 18:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:15.164564
- Title: Norm Growth and Stability Challenges in Localized Sequential Knowledge Editing
- Title(参考訳): 局所的なシーケンシャル知識編集におけるノーム成長と安定性の課題
- Authors: Akshat Gupta, Christine Fang, Atahan Ozdemir, Maochuan Lu, Ahmed Alaa, Thomas Hartvigsen, Gopala Anumanchipalli,
- Abstract要約: 本研究では,大規模言語モデル(LLM)における局所化更新の影響について検討する。
まず、異なるトレーニング後の介入に対して、更新された行列のフロベニウスノルムが常に増加することを示す。
我々は、微調整、ハイパーネットワークベースのアプローチ、ロケーション・アンド・エジット手法など、様々な編集技術にまたがる一貫した現象を明らかにする。
- 参考スコア(独自算出の注目度): 10.609738384910884
- License:
- Abstract: This study investigates the impact of localized updates to large language models (LLMs), specifically in the context of knowledge editing - a task aimed at incorporating or modifying specific facts without altering broader model capabilities. We first show that across different post-training interventions like continuous pre-training, full fine-tuning and LORA-based fine-tuning, the Frobenius norm of the updated matrices always increases. This increasing norm is especially detrimental for localized knowledge editing, where only a subset of matrices are updated in a model . We reveal a consistent phenomenon across various editing techniques, including fine-tuning, hypernetwork-based approaches, and locate-and-edit methods: the norm of the updated matrix invariably increases with successive updates. Such growth disrupts model balance, particularly when isolated matrices are updated while the rest of the model remains static, leading to potential instability and degradation of downstream performance. Upon deeper investigations of the intermediate activation vectors, we find that the norm of internal activations decreases and is accompanied by shifts in the subspaces occupied by these activations, which shows that these activation vectors now occupy completely different regions in the representation space compared to the unedited model. With our paper, we highlight the technical challenges with continuous and localized sequential knowledge editing and their implications for maintaining model stability and utility.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) の局所的な更新が,特に知識編集の文脈における影響について検討する。
まず, 連続事前学習, 完全微調整, LORAに基づく微調整など, ポストトレーニング後の介入によって更新行列のフロベニウスノルムが常に増加することを示す。
この増加するノルムは、特に局所的な知識編集において有害であり、行列のサブセットだけがモデルで更新される。
我々は、細調整、ハイパーネットワークベースのアプローチ、ロケーション・アンド・エジット手法など、様々な編集技術にまたがる一貫した現象を明らかにした。
このような成長はモデルバランスを損なうが、特に孤立行列が更新され、残りのモデルは静的のままであり、潜在的な不安定性と下流性能の低下をもたらす。
中間活性化ベクトルのより深い研究により、内部活性化のノルムは減少し、これらの活性化によって占有される部分空間のシフトを伴うことが分かる。
本稿では,連続的かつ局所的な知識編集における技術的課題と,モデル安定性と実用性を維持する上でのそれらの意義を強調した。
関連論文リスト
- Latent Convergence Modulation in Large Language Models: A Novel Approach to Iterative Contextual Realignment [0.0]
隠れ状態遷移を制御する構造変調機構が導入された。
格子調整は、パープレキシティ変動、エントロピー分散、および語彙不安定の低減に寄与した。
論文 参考訳(メタデータ) (2025-02-10T09:46:33Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。
我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。
我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T15:12:14Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - The Importance of the Current Input in Sequence Modeling [0.0]
入力と出力の間に直接接続を加えるという非常に単純なアイデアが、繰り返しモジュールをスキップすることで、予測精度が向上することを示す。
異なる問題に対する実験により、再帰的なネットワークへのこのような接続が常に改善されることが示されている。
論文 参考訳(メタデータ) (2021-12-22T10:29:20Z) - CNN-based Realized Covariance Matrix Forecasting [0.0]
本稿では,CNN と Conal LSTM (ConvLSTM) を用いたエンドツーエンドトレーニングモデルを提案する。
局所構造と相関に焦点をあて、歴史的に実現された共分散行列と将来の行列を結びつける非線形写像を学ぶ。
人工的および実世界のデータセットに関する実証研究は、いくつかの高度なボラティリティモデルと比較して優れた予測能力を示している。
論文 参考訳(メタデータ) (2021-07-22T12:02:24Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - To Regularize or Not To Regularize? The Bias Variance Trade-off in
Regularized AEs [10.611727286504994]
AEモデルの生成決定論的品質に及ぼす潜伏剤の影響について検討する。
我々は、FlexAEと呼ばれるモデルが、AEベースの生成モデルのための新しい最先端技術であることを示します。
論文 参考訳(メタデータ) (2020-06-10T14:00:14Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。