論文の概要: Energy-Regularized Sequential Model Editing on Hyperspheres
- arxiv url: http://arxiv.org/abs/2510.01172v1
- Date: Wed, 01 Oct 2025 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.709503
- Title: Energy-Regularized Sequential Model Editing on Hyperspheres
- Title(参考訳): ハイパースフィア上でのエネルギー規則化シーケンスモデル編集
- Authors: Qingyuan Liu, Jia-Chen Gu, Yunzhi Yao, Hong Wang, Nanyun Peng,
- Abstract要約: 大規模言語モデル(LLM)は、進化する現実世界の知識と整合性を維持するために、定期的な更新を必要とする。
逐次編集はしばしば表現を不安定にし、破滅的な忘れを誘発する。
ニューロンの重量分布を安定化するHE駆動正規化戦略であるSPHERE(Sparse Projection for Hyperspherical Energy-Regularized Editing)を提案する。
- 参考スコア(独自算出の注目度): 59.47007547581175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) require constant updates to remain aligned with evolving real-world knowledge. Model editing offers a lightweight alternative to retraining, but sequential editing often destabilizes representations and induces catastrophic forgetting. In this work, we seek to better understand and mitigate performance degradation caused by sequential editing. We hypothesize that hyperspherical uniformity, a property that maintains uniform distribution of neuron weights on a hypersphere, helps the model remain stable, retain prior knowledge, while still accommodate new updates. We use Hyperspherical Energy (HE) to quantify neuron uniformity during editing, and examine its correlation with editing performance. Empirical studies across widely used editing methods reveals a strong correlation between HE dynamics and editing performance, with editing failures consistently coinciding with high HE fluctuations. We further theoretically prove that HE dynamics impose a lower bound on the degradation of pretrained knowledge, highlighting why HE stability is crucial for knowledge retention. Motivated by these insights, we propose SPHERE (Sparse Projection for Hyperspherical Energy-Regularized Editing), an HE-driven regularization strategy that stabilizes neuron weight distributions, ultimately preserving prior knowledge while enabling reliable sequential updates. Specifically, SPHERE identifies a sparse space complementary to the principal hyperspherical directions of the pretrained weight matrices and projects new knowledge onto it, attenuating perturbations on the principal directions. Extensive experiments on LLaMA3 (8B) and Qwen2.5 (7B) show that SPHERE outperforms the best baseline in editing capability by an average of 16.41%, while most faithfully preserving general model performance, thereby offering a principled path toward reliable large-scale knowledge editing.
- Abstract(参考訳): 大規模言語モデル(LLM)は、進化する現実世界の知識と整合性を維持するために、定期的な更新を必要とする。
モデル編集は、リトレーニングの軽量な代替手段を提供するが、シーケンシャルな編集は、しばしば表現を不安定にし、破滅的な忘れを誘発する。
本研究では,逐次編集による性能劣化の理解と軽減を図る。
我々は、超球面上のニューロン重みの均一分布を維持する性質である超球面均一性は、モデルが安定し、事前の知識を維持しつつ、新しい更新を許容するのに役立つと仮定する。
我々は超球面エネルギー(HE)を用いて、編集中のニューロンの均一性を定量化し、その編集性能との相関について検討する。
広く使われている編集手法における実証研究は、HEのダイナミクスと編集性能の相関が強く、編集失敗は高いHE変動と一貫して一致していることを示している。
さらに、HE力学が事前学習した知識の劣化に低い限界を課すことを理論的に証明し、He安定性が知識保持に不可欠である理由を明らかにした。
これらの知見を生かしたSPHERE(Sparse Projection for Hyperspherical Energy-Regularized Editing)を提案する。
具体的には、SPHEREは、事前訓練された重量行列の主超球面方向を補完するスパース空間を特定し、その上に新しい知識を投射し、主方向の摂動を減衰させる。
LLaMA3 (8B) と Qwen2.5 (7B) の広範な実験により、SPHEREは平均16.41%の編集能力で最高のベースラインを上回り、最も忠実に一般的なモデル性能を保ち、信頼性の高い大規模知識編集への原則化された経路を提供する。
関連論文リスト
- Spectral Imbalance Causes Forgetting in Low-Rank Continual Adaptation [58.3773038915023]
継続的な学習は、事前訓練されたモデルを、以前取得した知識を忘れずにシーケンシャルなタスクに適応することを目的としている。
既存のほとんどのアプローチは、現在のタスク固有の更新が以前取得した知識を自然に保存するプロパティを考慮せずに、継続的な学習を過去の更新への干渉を避けるものとして扱う。
本稿では,視覚言語モデルで使用される標準深度ドットと互換性のある一階述語法を用いてこの問題に対処する。
論文 参考訳(メタデータ) (2026-01-31T13:27:02Z) - Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse [44.49646322759214]
モデルの一般能力は、事前訓練された重み行列の支配的な特異方向と密接に関連していることを示す。
支配的な特異部分空間を明示的に保存することにより、シーケンシャルな編集を安定化するプラグイン・アンド・プレイフレームワークであるREVIVEを提案する。
論文 参考訳(メタデータ) (2026-01-16T07:18:14Z) - Massive Editing for Large Language Models Based on Dynamic Weight Generation [51.34392079812964]
本稿では,動的重み生成(MeG)に基づく大規模言語モデル(LLM)の大量編集手法を提案する。
我々のMeGは信頼性,一般性,局所性といった指標を用いて,大規模知識編集の性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-12-16T13:32:55Z) - STABLE: Gated Continual Learning for Large Language Models [0.0]
STABLEは、シーケンシャルな更新時に忘れることを制限する、ゲート付き連続的なセルフ編集フレームワークである。
各候補編集は3つの指標のうちの1つを用いて安定性の予算に対して評価される。
Qwen-2.5-7Bモデルの実験では、ゲーティングは適応性を保ちながら忘れを効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-10-17T16:14:05Z) - EvoEdit: Evolving Null-space Alignment for Robust and Efficient Knowledge Editing [19.834477925624658]
大規模言語モデル(LLM)は、時代遅れまたは誤った知識を正すために継続的な更新を必要とする。
既存のアプローチは主に位置対応のフレームワークに基づいている。
本稿では,連続的なヌル空間アライメントによる破滅的干渉を緩和する新しい編集戦略であるEvoEditを紹介する。
論文 参考訳(メタデータ) (2025-10-11T21:36:14Z) - Retention analysis of edited knowledge after fine-tuning [5.440397659472036]
大規模な言語モデル(LLM)には膨大な量の知識が格納されており、事実の誤りを訂正したり、新たに取得した情報を組み込んだり、モデルの振る舞いを適応させたりする必要があることが多い。
モデル編集手法はこのような更新の効率的な解法として登場し、局所的で正確な知識修正を連続的な訓練よりも大幅に少ない計算コストで提供する。
しかし、これまで編集された知識に対する微調整の効果はよく分かっていない。
論文 参考訳(メタデータ) (2025-07-14T15:51:19Z) - MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [76.28901550926021]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。
我々は,学習済みモデルのコア能力を保ちながら,残メモリを介して知識を注入する,新しいスケーラブルなフレームワークMEMOIRを提案する。
MeMOIRは信頼性、一般化、ローカリティのメトリクスにまたがる最先端のパフォーマンスを実現し、最小限の忘れ物で数千のシーケンシャルな編集にスケールする。
論文 参考訳(メタデータ) (2025-06-09T16:16:42Z) - Model Editing with Graph-Based External Memory [12.694485038895813]
本稿では,双曲的幾何とグラフニューラルネットワークを利用して,高精度で安定したモデル編集を行う新しいフレームワークを提案する。
CounterFact, CounterFact+, MQuAKE with GPT-J and GPT2-XL 実験はHYPEが編集安定性、事実精度、マルチホップ推論を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-05-23T19:57:51Z) - LyapLock: Bounded Knowledge Preservation in Sequential Large Language Model Editing [27.918524905286475]
現在の位置情報編集アプローチは、逐次編集中に徐々にパフォーマンスが低下している。
textbfLyapLockは、長期制約付きプログラミングを、効率的な解法のために、段階的に抽出可能なサブプロブレムに分解するために提案されている。
実験結果から,本フレームワークは汎用性を安定させ,SOTAベースラインよりも平均編集効率を11.89%向上させるとともに,1万回以上の編集能力に拡張可能であることがわかった。
論文 参考訳(メタデータ) (2025-05-21T16:16:33Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。