論文の概要: Consistency-Aware Editing for Entity-level Unlearning in Language Models
- arxiv url: http://arxiv.org/abs/2601.08840v1
- Date: Fri, 19 Dec 2025 15:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.661947
- Title: Consistency-Aware Editing for Entity-level Unlearning in Language Models
- Title(参考訳): 言語モデルにおけるエンティティレベルの未学習のための一貫性を考慮した編集
- Authors: Xiaoqi Han, Víctor Gutiérrez-Basulto, Ru Li, Xiaoli Li, Jiye Liang, Jeff Z. Pan,
- Abstract要約: 本稿では,エンティティレベルのアンラーニングのための新しい一貫性対応編集(CAE)フレームワークを提案する。
CAEは、その属性、関係、および敵のパラフレーズを含む、ターゲットエンティティに関連する多様なプロンプトの集合を集約する。
次に、一貫性レギュレータによってガイドされる低ランクの更新を共同で学習し、プロンプトをまたいだ編集方向を調整する。
- 参考スコア(独自算出の注目度): 53.522931419965424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) risk retaining sensitive, copyrighted, or harmful information from their training data. Entity-level unlearning addresses this issue by removing all knowledge of a specific entity while preserving the model's overall capabilities. Existing approaches typically rely on full-model fine-tuning or prompt-based interventions, which can be computationally expensive or brittle when handling paraphrased queries. Recently, model editing has emerged as an efficient alternative for updating knowledge in LLMs, offering a promising direction for unlearning. However, existing editing techniques are typically designed for instance-level updates, modifying responses to specific attributes of an entity rather than eliminating all knowledge associated with the entity. In this paper, we investigate how editing techniques can be adapted for effective and efficient entity-level unlearning. To this end, we introduce a novel consistency-aware editing (CAE) framework. CAE aggregates a diverse set of prompts related to a target entity, including its attributes, relations, and adversarial paraphrases. It then jointly learns a low-rank update guided by a consistency regularizer that aligns the editing directions across prompts. This promotes robust and comprehensive forgetting while minimizing interference with unrelated knowledge. We further examine where different entities are stored within the model and how many diverse prompts are needed for successful unlearning. We evaluate CAE on two challenging benchmarks, RWKU and ToFU, and demonstrate that it (i) provides insights into how entity-level knowledge is internally represented and deleted in LLMs, (ii) significantly improves forgetting accuracy and robustness over traditional unlearning and editing baselines, and (iii) enables scalable entity removal using only tens of carefully selected prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングデータから機密性、著作権、有害な情報を保持するリスクを負う。
エンティティレベルのアンラーニングは、モデル全体の機能を維持しながら、特定のエンティティのすべての知識を取り除くことで、この問題に対処する。
既存のアプローチは一般的にフルモデルの微調整やプロンプトベースの介入に頼っている。
近年、モデル編集がLLMの知識を更新するための効率的な代替手段として登場し、未学習のための有望な方向性を提供している。
しかし、既存の編集技術は典型的にはインスタンスレベルの更新のために設計されており、エンティティに関連するすべての知識を取り除くのではなく、エンティティの特定の属性に対する応答を変更する。
本稿では,編集技法を効果的かつ効率的なエンティティレベルのアンラーニングに適用する方法について検討する。
そこで本研究では,新しい一貫性対応編集(CAE)フレームワークを提案する。
CAEは、その属性、関係、および敵のパラフレーズを含む、ターゲットエンティティに関連する多様なプロンプトの集合を集約する。
次に、一貫性レギュレータによってガイドされる低ランクの更新を共同で学習し、プロンプトをまたいだ編集方向を調整する。
これにより、無関係な知識との干渉を最小限に抑えつつ、堅牢で包括的な忘れ込みを促進する。
さらに、モデル内に異なるエンティティがどこに格納されているか、そして学習を成功させるためには、どの程度の多様なプロンプトが必要なのか、についても検討する。
我々は、RWKUとToFUの2つの挑戦的ベンチマークでCAEを評価し、それを実証した。
i) LLMの内部でエンティティレベルの知識がどのように表現され、削除されるかについての洞察を提供する。
(二)従来の未学習・編集ベースラインよりも正確さと堅牢性を著しく改善し、
(iii) 慎重に選択された数個のプロンプトのみを使用して、スケーラブルなエンティティ削除を可能にする。
関連論文リスト
- Representation Interventions Enable Lifelong Unstructured Knowledge Control [54.86207134539453]
大規模言語モデル(LLM)は、しばしば誤った、または時代遅れのコンテンツを生成します。その知識を効率的に正確に更新し、コストのかかる再トレーニングなしにするというのは、大きな課題です。
本稿では,モデル表現空間内の介入として知識制御を扱う,堅牢でスケーラブルな手法であるRILKEを紹介する。
トレーニング中、RILKEはパラフレーズロバストと編集局所化モジュールを学び、低次元のサブスペースへの更新を制限し、クロスディジット干渉を最小限に抑える。
推論において、クエリ適応ルータは、モデル生成をガイドする適切なモジュールを選択する。
論文 参考訳(メタデータ) (2025-11-25T22:15:00Z) - SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models [96.81401797908835]
SAKEは、大規模オーディオ言語モデルにおける聴覚属性知識の編集に特化して設計された最初のベンチマークである。
我々は,信頼性,汎用性,音声/テキストの局所性,可搬性という4次元の2つのLALMに対して,7つの編集手法をベンチマークした。
結果は、編集とは無関係な属性内知識の保存、マルチモーダル推論への編集の一般化、シーケンシャルな更新の下での編集の維持といった課題を浮き彫りにする。
論文 参考訳(メタデータ) (2025-10-19T16:22:09Z) - Disentangling Knowledge Representations for Large Language Model Editing [38.244171146682206]
我々は,LLM編集のための知識表現を分割する新しいアプローチであるDiKEを提案する。
DiKEは2つの主要なコンポーネントから構成される: 対象表現を対象知識関連および非関連コンポーネントに分解する知識表現(KRD)モジュールと、対象コンポーネントのみを更新する知識編集(DKE)モジュールである。
本研究では, 微粒な無関係知識の保存を厳密に評価するため, FINE-KEDという, 微粒な無関係知識を, 編集された知識と異なるレベルの類似度で構成した新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-05-24T16:24:04Z) - Knowledge Updating? No More Model Editing! Just Selective Contextual Reasoning [38.018263569983226]
信頼性,一般化,局所性,可搬性という4次元の10種類のモデル編集手法の評価を行った。
次に、知識更新のためのSCR(Selective Contextual Reasoning)という簡単な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:04:25Z) - Has this Fact been Edited? Detecting Knowledge Edits in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:24Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。