Fugu-MT 論文翻訳(概要): Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

論文の概要: Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

arxiv url: http://arxiv.org/abs/2406.11614v2
Date: Fri, 04 Oct 2024 11:46:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:34:27.190654
Title: Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces
Title（参考訳）: パラメトリック知識トレースを用いた未学習の本質的評価
Authors: Yihuai Hong, Lei Yu, Haiqin Yang, Shauli Ravfogel, Mor Geva,
Abstract要約: 近年,大規模言語モデル(LLM)の「学習」概念が注目されている。未学習の手法を評価するための現在のプロトコルは、関連する知識を監視せずに行動テストに依存している。我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。
参考スコア（独自算出の注目度）: 34.00971641141313
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The task of "unlearning" certain concepts in large language models (LLMs) has attracted immense attention recently, due to its importance in mitigating undesirable model behaviours, such as the generation of harmful, private, or incorrect information. Current protocols to evaluate unlearning methods largely rely on behavioral tests, without monitoring the presence of unlearned knowledge within the model's parameters. This residual knowledge can be adversarially exploited to recover the erased information post-unlearning. We argue that unlearning should also be evaluated internally, by considering changes in the parametric knowledge traces of the unlearned concepts. To this end, we propose a general evaluation methodology that leverages vocabulary projections to inspect concepts encoded in model parameters. We use this approach to localize "concept vectors" - parameter vectors that encode concrete concepts - and construct ConceptVectors, a benchmark dataset containing hundreds of common concepts and their parametric knowledge traces within two open-source LLMs. Evaluation on ConceptVectors shows that existing unlearning methods minimally impact concept vectors and mostly suppress them during inference, while directly ablating these vectors demonstrably removes the associated knowledge and significantly reduces the model's susceptibility to adversarial manipulation. Our results highlight limitations in behavioral-based unlearning evaluations and call for future work to include parameter-based evaluations. To support this, we release our code and benchmark at https://github.com/yihuaihong/ConceptVectors.
Abstract（参考訳）: 大規模言語モデル(LLM)における特定の概念の「学習」という課題は、有害、プライベート、不正な情報の生成など、望ましくないモデルの振る舞いを緩和することの重要性から、近年大きな注目を集めている。未学習の手法を評価するための現在のプロトコルは、モデルパラメータ内の未学習の知識を監視せずに、行動テストに大きく依存している。この残余の知識は、学習後に消去された情報を回復するために逆利用することができる。我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。そこで本研究では,語彙予測を利用してモデルパラメータに符号化された概念を検査する一般評価手法を提案する。本研究では,概念ベクトル - 具体的な概念をエンコードするパラメータベクトル - をローカライズし,数百の共通概念とパラメトリック知識トレースを含むベンチマークデータセットであるConceptVectorsを構築する。 ConceptVectorsの評価は、既存の未学習の手法が概念ベクトルに最小限の影響を与え、推論中にそれらを抑える一方で、これらのベクトルを直接非難することは、関連する知識を明白に排除し、モデルの敵の操作に対する感受性を著しく低下させることを示している。本結果は,行動に基づく未学習評価の限界を強調し,パラメータに基づく評価を含むための今後の課題を求めるものである。これをサポートするため、私たちはhttps://github.com/yihuaihong/ConceptVectors.comでコードとベンチマークをリリースしました。

関連論文リスト

Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
我々は,大規模シナリオ下での未学習モデルの表現に基づく評価を用いた新しい包括的評価を行う。我々の分析によると、現在の最先端の未学習アプローチは、未学習モデルの表現品質を完全に低下させるか、または完全に低下させる。本稿では,下流のタスククラスと意味的類似性を示す,移動学習の観点からの新たなアンラーニング評価手法を提案する。
論文参考訳（メタデータ） (2025-03-10T07:11:34Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
Sample-efficient Learning of Concepts with Theoretical Guarantees: from Data to Concepts without Interventions [7.3784937557132855]
概念ベースモデル(CBM)は、ラベルの予測に使用される画像などの高次元データから解釈可能な概念を学習する。 CBMにおける重要な問題は、概念リーク、すなわち学習された概念の急激な情報であり、事実上「間違った」概念を学ぶことにつながる。本稿では,学習概念の正しさと必要なラベル数に関する理論的保証を提供する枠組みについて述べる。
論文参考訳（メタデータ） (2025-02-10T15:01:56Z)
Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文参考訳（メタデータ） (2024-11-09T08:22:31Z)
RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-31T20:54:35Z)
Erasing Conceptual Knowledge from Language Models [24.63143961814566]
言語記憶の消去(英語: Erasure of Language Memory, ELM)とは、イントロスペクティブな分類器によって定義された分布をマッチングする原理に基づいて構築された概念レベルのアンラーニングのアプローチである。 ELMはこのフレームワークを適用して、コンセプト固有のコンテンツの生成確率を低下させるローランクな更新をターゲットとする。 ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。
論文参考訳（メタデータ） (2024-10-03T17:59:30Z)
Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models [7.9993879763024065]
既存の手法で未学習に使用する目的関数が,対象概念の分離に繋がることを示す。現在の手法の非効率性は、主に特定のプロンプト集合の生成確率の減少に焦点を絞ったものである。 CRS(Concept Retrieval Score)とCCS(Concept Confidence Score)の2つの新しい評価指標を紹介した。
論文参考訳（メタデータ） (2024-09-09T14:38:31Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。 CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文参考訳（メタデータ） (2024-05-27T18:15:40Z)
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文参考訳（メタデータ） (2023-10-17T17:58:34Z)
Towards Robust Metrics for Concept Representation Evaluation [25.549961337814523]
概念学習モデルは、その表現に不純物を符号化する傾向があることが示されている。両手法における概念表現の純度を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-01-25T00:40:19Z)
Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。これは私たちの最良の知識の一般的な評価の最初の定義です。
論文参考訳（メタデータ） (2022-08-23T09:37:31Z)
Translational Concept Embedding for Generalized Compositional Zero-shot Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-12-20T21:27:51Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)
Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。 PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。 PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文参考訳（メタデータ） (2020-05-11T09:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。