論文の概要: Precise In-Parameter Concept Erasure in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.22586v1
- Date: Wed, 28 May 2025 16:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.749665
- Title: Precise In-Parameter Concept Erasure in Large Language Models
- Title(参考訳): 大規模言語モデルにおける高精度パラメータ内概念消去
- Authors: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva,
- Abstract要約: モデルパラメータから概念全体を正確に消去する新しいフレームワークであるPSSCESを提案する。
PISCESはディスタングルモデルを使用して、ベクトルを解釈可能な機能に分解し、ターゲットコンセプトに関連するものを識別し、モデルパラメータから削除する。
実験の結果、PSSCESは先進的消去法よりも効果が緩やかに向上し、目標コンセプトの精度は7.7%にまで低下した。
- 参考スコア(独自算出の注目度): 11.37622417502312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often acquire knowledge during pretraining that is undesirable in downstream deployments, e.g., sensitive information or copyrighted content. Existing approaches for removing such knowledge rely on fine-tuning, training low-rank adapters or fact-level editing, but these are either too coarse, too shallow, or ineffective. In this work, we propose PISCES (Precise In-parameter Suppression for Concept EraSure), a novel framework for precisely erasing entire concepts from model parameters by directly editing directions that encode them in parameter space. PISCES uses a disentangler model to decompose MLP vectors into interpretable features, identifies those associated with a target concept using automated interpretability techniques, and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1 over various concepts show that PISCES achieves modest gains in efficacy over leading erasure methods, reducing accuracy on the target concept to as low as 7.7%, while dramatically improving erasure specificity (by up to 31%) and robustness (by up to 38%). Overall, these results demonstrate that feature-based in-parameter editing enables a more precise and reliable approach for removing conceptual knowledge in language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、下流のデプロイメント、例えば機密情報や著作権のあるコンテンツでは望ましくない事前訓練中に知識を得ることが多い。
このような知識を取り除くための既存のアプローチは、微調整、低ランクアダプタの訓練、ファクトレベルの編集に頼っているが、それらは大きすぎるか、浅すぎるか、効果がないかのいずれかである。
本研究では、モデルパラメータから概念全体を正確に消去する新しいフレームワークであるPSSCES(Precise In-parameter Suppression for Concept EraSure)を提案する。
PISCESは、Distanglerモデルを使用して、MLPベクトルを解釈可能な機能に分解し、自動解釈可能性技術を使用してターゲット概念に関連するものを識別し、モデルパラメータからそれらを取り除く。
Gemma 2 と Llama 3.1 の様々な概念に対する実験により、PSSCES は先進的な消去方法よりも効果が緩やかに向上し、目標コンセプトの精度は7.7%まで低下し、消去特異性(最大31%)と堅牢性(最大38%)は劇的に改善された。
これらの結果から,機能に基づくパラメータ内編集により,言語モデルにおける概念的知識の除去に,より正確かつ信頼性の高いアプローチが可能になることが示唆された。
関連論文リスト
- Efficient Model Compression Techniques with FishLeg [30.69238973086908]
FishLegはFisher-Legendre(FishLeg)に基づく新しい二階刈り法である
FishLegの心臓部は、逆FIMの作用を補うメタラーニングアプローチである。
FishLegは,2つの共通ベースラインに対して高い,あるいは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-03T09:42:16Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。
我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。
我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - RDR: the Recap, Deliberate, and Respond Method for Enhanced Language
Understanding [6.738409533239947]
Recap、Deliberate、Respond(RDR)パラダイムは、ニューラルネットワークパイプラインに3つの異なる目的を組み込むことで、この問題に対処する。
これら3つのモデルをカスケードすることにより、ベンチマークをゲームする可能性を軽減し、基盤となるセマンティックパターンをキャプチャする堅牢な方法を確立する。
その結果,標準基準値の最大2%向上とともに,競争基準値と比較して性能が向上した。
論文 参考訳(メタデータ) (2023-12-15T16:41:48Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Ultra-light deep MIR by trimming lottery tickets [1.2599533416395767]
抽選券仮説に基づくモデルプルーニング手法を提案する。
提案手法は,精度を損なうことなく,最大90%のモデルパラメータを除去できることを示す。
圧縮比が小さいほど、より軽量なモデルの方が重いモデルよりずっと優れているという驚くべき結果を確認します。
論文 参考訳(メタデータ) (2020-07-31T17:30:28Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。