論文の概要: Golden Layers and Where to Find Them: Improved Knowledge Editing for Large Language Models Via Layer Gradient Analysis
- arxiv url: http://arxiv.org/abs/2602.20207v1
- Date: Sun, 22 Feb 2026 22:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.46679
- Title: Golden Layers and Where to Find Them: Improved Knowledge Editing for Large Language Models Via Layer Gradient Analysis
- Title(参考訳): 黄金層とその発見方法 - 階層勾配解析による大規模言語モデルの知識編集の改善-
- Authors: Shrestha Datta, Hongfu Liu, Anshuman Chhabra,
- Abstract要約: 固定された黄金層は、サンプルワイド最適層と同様、ほぼ最適な編集性能が得られることを示す。
グラデート・アトリビューションを用いて黄金層を効率的に推定する新しい手法,Layer Gradient Analysis (LGA)を提案する。
- 参考スコア(独自算出の注目度): 12.559788353912651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge editing in Large Language Models (LLMs) aims to update the model's prediction for a specific query to a desired target while preserving its behavior on all other inputs. This process typically involves two stages: identifying the layer to edit and performing the parameter update. Intuitively, different queries may localize knowledge at different depths of the model, resulting in different sample-wise editing performance for a fixed editing layer. In this work, we hypothesize the existence of fixed golden layers that can achieve near-optimal editing performance similar to sample-wise optimal layers. To validate this hypothesis, we provide empirical evidence by comparing golden layers against ground-truth sample-wise optimal layers. Furthermore, we show that golden layers can be reliably identified using a proxy dataset and generalize effectively to unseen test set queries across datasets. Finally, we propose a novel method, namely Layer Gradient Analysis (LGA) that estimates golden layers efficiently via gradient-attribution, avoiding extensive trial-and-error across multiple editing runs. Extensive experiments on several benchmark datasets demonstrate the effectiveness and robustness of our LGA approach across different LLM types and various knowledge editing methods.
- Abstract(参考訳): LLM(Large Language Models)における知識編集は、特定のクエリの予測を所望のターゲットに更新し、その振る舞いを他のすべての入力で保存することを目的としている。
このプロセスは一般的に2つの段階を含む: パラメータの更新と更新を行うためのレイヤを特定する。
直感的には、異なるクエリはモデルの異なる深さで知識をローカライズする可能性がある。
本研究は, サンプルワイド最適層と同様, 準最適編集性能が得られる固定金層の存在を仮定するものである。
この仮説を検証するために,金の層と地層を最適に比較した経験的証拠を提供する。
さらに、プロキシデータセットを用いて黄金の層を確実に識別し、データセットをまたいだテストセットクエリを効果的に一般化できることを示す。
最後に,複数の編集作業における広範囲な試行錯誤を回避するために,勾配属性による黄金層を効率的に推定する新しい手法,Layer Gradient Analysis (LGA)を提案する。
いくつかのベンチマークデータセットに対する大規模な実験は、異なるLLMタイプと様々な知識編集手法をまたいだLGAアプローチの有効性と堅牢性を示している。
関連論文リスト
- Do All Individual Layers Help? An Empirical Study of Task-Interfering Layers in Vision-Language Models [51.754991950934375]
事前トレーニングされたVLMでは、すべてのレイヤがデフォルトで実行され、下流タスクで予測される。
パラメータをゼロにすることで、ひとつの層にインターベンションすることで、特定のタスクのパフォーマンスを向上させることができる。
与えられたタスクに対して最も干渉するレイヤを動的に識別し、バイパスする、トレーニング不要なテスト時間適応手法であるTaLoを提案する。
論文 参考訳(メタデータ) (2026-02-01T11:37:05Z) - Hierarchical Adaptive networks with Task vectors for Test-Time Adaptation [3.3834108313265916]
タスクベクトルを用いた階層型適応ネットワーク(Hi-Vec)を提案する。
Hi-Vecは、既存のメソッドが様々な複雑さのシフトに適応できるようにする。
挑戦的なシナリオや複数のターゲットデータセットにおいて、Hi-Vecの性能を厳格に評価する。
論文 参考訳(メタデータ) (2025-08-11T21:55:53Z) - Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs [21.541258368039955]
事前訓練された大規模言語モデル(LLM)のレイヤを独立したモジュールとして操作することで、テストサンプル毎にカスタマイズされたより良く、より浅いモデルを構築することができる。
特に、事前訓練されたモデルからの各レイヤは、繰り返しニューラルネットワーク(RNN)としてスキップ/プルーニングまたは繰り返し、任意の順序で他のレイヤと積み重ねられ、サンプル毎にチェーン・オブ・レイヤ(CoLa)が生成される。
論文 参考訳(メタデータ) (2025-07-10T17:59:53Z) - Layer-Aware Embedding Fusion for LLMs in Text Classifications [1.4250487522292254]
層認識型埋め込み選択法を提案し, 異なる層を定量的に評価し, 下流のNLPタスクにおいて最も重要なものを特定する方法について検討する。
4つの英語テキスト分類データセットの実験により、LLMの異なる層は、分類のための表現力の度合いが異なることが示された。
また、モデル微調整を必要とせず、複数のLLMからの埋め込みを組み合わせることで、パフォーマンスが向上する可能性についても検討する。
論文 参考訳(メタデータ) (2025-04-08T07:45:50Z) - Rethinking the Residual Distribution of Locate-then-Editing Methods in Model Editing [14.958557185068]
モデル編集は、大規模言語モデルの知識をターゲットとする更新を可能にする。
location-then-editメソッドはまず重要なレイヤを識別し、ターゲットの編集に基づいて最後のクリティカルレイヤで残余を計算する。
これらの手法のコアメカニズムである残留分布は、編集精度を損なう重みシフト誤差をもたらす。
そこで我々は,位置列編集手法を強化するBLUE戦略を提案する。
論文 参考訳(メタデータ) (2025-02-06T03:20:17Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Learning the Right Layers: a Data-Driven Layer-Aggregation Strategy for
Semi-Supervised Learning on Multilayer Graphs [2.752817022620644]
多層グラフ上のクラスタリング(あるいはコミュニティ検出)は、さらにいくつかの複雑さを生じさせる。
主な課題の1つは、各レイヤがクラスタのイテレーションの割り当てにどの程度貢献するかを確立することである。
利用可能な入力ラベルから異なる層を最適に非線形に組み合わせたパラメータフリーなラプラシアン正規化モデルを提案する。
論文 参考訳(メタデータ) (2023-05-31T19:50:11Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。