論文の概要: Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces
- arxiv url: http://arxiv.org/abs/2406.11614v2
- Date: Fri, 04 Oct 2024 11:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:11.592511
- Title: Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces
- Title(参考訳): パラメトリック知識トレースを用いた未学習の本質的評価
- Authors: Yihuai Hong, Lei Yu, Haiqin Yang, Shauli Ravfogel, Mor Geva,
- Abstract要約: 近年,大規模言語モデル(LLM)の「学習」概念が注目されている。
未学習の手法を評価するための現在のプロトコルは、関連する知識を監視せずに行動テストに依存している。
我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。
- 参考スコア(独自算出の注目度): 34.00971641141313
- License:
- Abstract: The task of "unlearning" certain concepts in large language models (LLMs) has attracted immense attention recently, due to its importance in mitigating undesirable model behaviours, such as the generation of harmful, private, or incorrect information. Current protocols to evaluate unlearning methods largely rely on behavioral tests, without monitoring the presence of unlearned knowledge within the model's parameters. This residual knowledge can be adversarially exploited to recover the erased information post-unlearning. We argue that unlearning should also be evaluated internally, by considering changes in the parametric knowledge traces of the unlearned concepts. To this end, we propose a general evaluation methodology that leverages vocabulary projections to inspect concepts encoded in model parameters. We use this approach to localize "concept vectors" - parameter vectors that encode concrete concepts - and construct ConceptVectors, a benchmark dataset containing hundreds of common concepts and their parametric knowledge traces within two open-source LLMs. Evaluation on ConceptVectors shows that existing unlearning methods minimally impact concept vectors and mostly suppress them during inference, while directly ablating these vectors demonstrably removes the associated knowledge and significantly reduces the model's susceptibility to adversarial manipulation. Our results highlight limitations in behavioral-based unlearning evaluations and call for future work to include parameter-based evaluations. To support this, we release our code and benchmark at https://github.com/yihuaihong/ConceptVectors.
- Abstract(参考訳): 大規模言語モデル(LLM)における特定の概念の「学習」という課題は、有害、プライベート、不正な情報の生成など、望ましくないモデルの振る舞いを緩和することの重要性から、近年大きな注目を集めている。
未学習の手法を評価するための現在のプロトコルは、モデルパラメータ内の未学習の知識を監視せずに、行動テストに大きく依存している。
この残余の知識は、学習後に消去された情報を回復するために逆利用することができる。
我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。
そこで本研究では,語彙予測を利用してモデルパラメータに符号化された概念を検査する一般評価手法を提案する。
本研究では,概念ベクトル - 具体的な概念をエンコードするパラメータベクトル - をローカライズし,数百の共通概念とパラメトリック知識トレースを含むベンチマークデータセットであるConceptVectorsを構築する。
ConceptVectorsの評価は、既存の未学習の手法が概念ベクトルに最小限の影響を与え、推論中にそれらを抑える一方で、これらのベクトルを直接非難することは、関連する知識を明白に排除し、モデルの敵の操作に対する感受性を著しく低下させることを示している。
本結果は,行動に基づく未学習評価の限界を強調し,パラメータに基づく評価を含むための今後の課題を求めるものである。
これをサポートするため、私たちはhttps://github.com/yihuaihong/ConceptVectors.comでコードとベンチマークをリリースしました。
関連論文リスト
- RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。
以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models [7.9993879763024065]
既存の手法で未学習に使用する目的関数が,対象概念の分離に繋がることを示す。
現在の手法の非効率性は、主に特定のプロンプト集合の生成確率の減少に焦点を絞ったものである。
CRS(Concept Retrieval Score)とCCS(Concept Confidence Score)の2つの新しい評価指標を紹介した。
論文 参考訳(メタデータ) (2024-09-09T14:38:31Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - An Information Theoretic Evaluation Metric For Strong Unlearning [20.143627174765985]
情報理論にインスパイアされた新しいホワイトボックス計量であるIDI(Information difference Index)を導入する。
IDIは、これらの特徴と忘れるべきラベルの相互情報を測定することにより、中間特徴の保持情報を定量化する。
我々の実験は、IDIが様々なデータセットやアーキテクチャをまたいだアンラーニングの度合いを効果的に測定できることを実証した。
論文 参考訳(メタデータ) (2024-05-28T06:57:01Z) - Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。
CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。
ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-27T18:15:40Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Towards Robust Metrics for Concept Representation Evaluation [25.549961337814523]
概念学習モデルは、その表現に不純物を符号化する傾向があることが示されている。
両手法における概念表現の純度を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-01-25T00:40:19Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。