論文の概要: CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing
- arxiv url: http://arxiv.org/abs/2603.19297v1
- Date: Wed, 11 Mar 2026 04:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.863359
- Title: CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing
- Title(参考訳): CLaRE-ty Amid Chaos:LLM編集におけるリップル効果予測のための表現エンタングルメントの定量化
- Authors: Manit Baser, Alperen Yildiz, Dinil Mon Divakaran, Mohan Gurusamy,
- Abstract要約: 我々は、リップル効果の発生箇所を特定するための表現レベル技術であるCLaREを紹介する。
CLaREは、単一の中間層からのフォワードアクティベーションを使用して事実間の絡み合いを定量化し、コストのかかる後方通過を回避する。
複数のモデルに対して、このコーパスの大規模絡み合いグラフを計算し、局所的な編集が表現空間を通してどのように伝播するかをキャプチャする。
- 参考スコア(独自算出の注目度): 4.180400747723904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The static knowledge representations of large language models (LLMs) inevitably become outdated or incorrect over time. While model-editing techniques offer a promising solution by modifying a model's factual associations, they often produce unpredictable ripple effects, which are unintended behavioral changes that propagate even to the hidden space. In this work, we introduce CLaRE, a lightweight representation-level technique to identify where these ripple effects may occur. Unlike prior gradient-based methods, CLaRE quantifies entanglement between facts using forward activations from a single intermediate layer, avoiding costly backward passes. To enable systematic study, we prepare and analyse a corpus of 11,427 facts drawn from three existing datasets. Using CLaRE, we compute large-scale entanglement graphs of this corpus for multiple models, capturing how local edits propagate through representational space. These graphs enable stronger preservation sets for model editing, audit trails, efficient red-teaming, and scalable post-edit evaluation. In comparison to baselines, CLaRE achieves an average of 62.2% improvement in Spearman correlation with ripple effects while being $2.74\times$ faster, and using $2.85\times$ less peak GPU memory. Besides, CLaRE requires only a fraction of the storage needed by the baselines to compute and preserve fact representations. Our entanglement graphs and corpus are available at https://anonymous.4open.science/r/CLaRE-488E.
- Abstract(参考訳): 大きな言語モデル(LLM)の静的な知識表現は、必然的に時代遅れになるか、不正確なものになる。
モデル編集技術は、モデルの実効関係を変更することによって有望な解決策を提供するが、しばしば予測不可能なリップル効果を生じさせ、それは隠れた空間に伝播する意図しない行動変化である。
本稿では,これらのリップル効果の発生源を特定する軽量な表現レベル技術であるCLaREを紹介する。
従来の勾配に基づく手法とは異なり、CLaREは単一の中間層からの前方アクティベーションを用いて事実間の絡み合いを定量化し、コストのかかる後方通過を回避する。
体系的な研究を可能にするために,既存の3つのデータセットから抽出された11,427の事実のコーパスを作成し,分析する。
CLaREを用いて、複数のモデルに対して、このコーパスの大規模絡み合いグラフを計算し、局所的な編集が表現空間を通してどのように伝播するかをキャプチャする。
これらのグラフは、モデル編集、監査パス、効率的なリピート、スケーラブルな後評価のためのより強力な保存セットを可能にする。
ベースラインと比較して、CLaREは、スピアマンとリップル効果の相関を平均62.2%改善し、2.74\times$高速、2.85\times$低いピークGPUメモリを使用する。
さらにCLaREは、ファクト表現の計算と保存のためにベースラインに必要なストレージのごく一部しか必要としない。
我々の絡み合いグラフとコーパスはhttps://anonymous.4open.science/r/CLaRE-488Eで入手できる。
関連論文リスト
- Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection [15.896078006029475]
DINOモデルは、教師なし異常検出(UAD)において、最近強力なパフォーマンスを実現したリッチなパッチレベル表現を提供する。
既存のほとんどの手法では、パッチ間の空間的および近傍的な関係を無視して、通常の画像からパッチ埋め込みを抽出し、それらを個別にモデル化する。
本稿では,2次元自己回帰(AR)モデルを用いて,パッチ埋め込み間の空間的および文脈的依存関係を明示的にモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-03T13:30:33Z) - Backward-Friendly Optimization: Training Large Language Models with Approximate Gradients under Memory Constraints [14.20716202034732]
LLM(Large Language Models)の完全な微調整は、メモリ集約性で悪名高い。
GradLiteは、正確な勾配の要求を緩和する後方フレンドリーなソリューションである。
我々はGradLiteが有界な分散を伴う不偏推定を維持し、Adamに匹敵する収束率を保証することを示す。
論文 参考訳(メタデータ) (2025-10-26T00:50:12Z) - Rethinking the Residual Distribution of Locate-then-Editing Methods in Model Editing [14.958557185068]
モデル編集は、大規模言語モデルの知識をターゲットとする更新を可能にする。
location-then-editメソッドはまず重要なレイヤを識別し、ターゲットの編集に基づいて最後のクリティカルレイヤで残余を計算する。
これらの手法のコアメカニズムである残留分布は、編集精度を損なう重みシフト誤差をもたらす。
そこで我々は,位置列編集手法を強化するBLUE戦略を提案する。
論文 参考訳(メタデータ) (2025-02-06T03:20:17Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Learning Decorrelated Representations Efficiently Using Fast Fourier
Transform [3.932322649674071]
高速フーリエ変換によりO(n d log d)時間で計算できる緩和された非相関正規化器を提案する。
提案した正則化器は、ダウンストリームタスクにおける既存の正則化器に匹敵する精度を示す。
論文 参考訳(メタデータ) (2023-01-04T12:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。