Fugu-MT 論文翻訳(概要): Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

論文の概要: Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

arxiv url: http://arxiv.org/abs/2406.11614v1
Date: Mon, 17 Jun 2024 15:00:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 14:22:35.848706
Title: Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces
Title（参考訳）: パラメトリック知識トレースを用いた未学習の本質的評価
Authors: Yihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva,
Abstract要約: 近年,大規模言語モデルの「学習」概念が注目されている。未学習の手法を評価するための現在のプロトコルは、主に振る舞いテストに依存している。パラメトリックな知識トレースの変化を考慮し、未学習を内部的に評価するべきだと論じる。
参考スコア（独自算出の注目度）: 34.00971641141313
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The task of "unlearning" certain concepts in large language models (LLMs) has attracted immense attention recently, due to its importance for mitigating undesirable model behaviours, such as the generation of harmful, private, or incorrect information. Current protocols to evaluate unlearning methods largely rely on behavioral tests, without monitoring the presence of unlearned knowledge within the model's parameters. This residual knowledge can be adversarially exploited to recover the erased information post-unlearning. We argue that unlearning should also be evaluated internally, by considering changes in the parametric knowledge traces of the unlearned concepts. To this end, we propose a general methodology for eliciting directions in the parameter space (termed "concept vectors") that encode concrete concepts, and construct ConceptVectors, a benchmark dataset containing hundreds of common concepts and their parametric knowledge traces within two open-source LLMs. Evaluation on ConceptVectors shows that existing unlearning methods minimally impact concept vectors, while directly ablating these vectors demonstrably removes the associated knowledge from the LLMs and significantly reduces their susceptibility to adversarial manipulation. Our results highlight limitations in behavioral-based unlearning evaluations and call for future work to include parametric-based evaluations. To support this, we release our code and benchmark at https://github.com/yihuaihong/ConceptVectors.
Abstract（参考訳）: 大規模言語モデル(LLM)における特定の概念の「学習」という課題は、有害、プライベート、不正な情報の生成など、望ましくないモデルの振る舞いを緩和することの重要性から、近年大きな注目を集めている。未学習の手法を評価するための現在のプロトコルは、モデルパラメータ内の未学習の知識を監視せずに、行動テストに大きく依存している。この残余の知識は、学習後に消去された情報を回復するために逆利用することができる。我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。そこで本研究では,具体的な概念を符号化したパラメータ空間(概念ベクトル)の方向を求める一般的な手法を提案し,概念ベクトル(ConceptVectors)を構築した。 ConceptVectorsの評価は、既存の未学習手法が概念ベクトルに最小限の影響を与える一方で、これらのベクトルを直接非難することで、LCMから関連する知識を明白に取り除き、敵の操作に対する感受性を著しく低下させることを示している。本研究は,行動に基づく未学習評価の限界を強調し,パラメトリックな評価を取り入れることを求めるものである。これをサポートするため、私たちはhttps://github.com/yihuaihong/ConceptVectors.comでコードとベンチマークをリリースしました。

関連論文リスト

MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。 MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文参考訳（メタデータ） (2026-02-19T05:20:31Z)
RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training [59.493415006017635]
事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。 MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
論文参考訳（メタデータ） (2026-02-13T12:56:31Z)
Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文参考訳（メタデータ） (2026-01-21T15:51:19Z)
Learning from Supervision with Semantic and Episodic Memory: A Reflective Approach to Agent Adaptation [11.819481846962447]
本研究では,事前訓練された大規模言語モデル上に構築されたエージェントが,パラメータ更新なしでラベル付き例からターゲット分類関数を学習する方法について検討する。我々のフレームワークは、エピソードメモリを使用して、インスタンスレベルの批判を保存し、それらを再利用可能なタスクレベルのガイダンスに蒸留する。我々の研究は、より適応的で解釈可能なLLMエージェントを構築するためのメモリ駆動型反射学習の可能性を浮き彫りにした。
論文参考訳（メタデータ） (2025-10-22T17:58:03Z)
Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。 FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文参考訳（メタデータ） (2025-10-14T20:50:30Z)
Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文参考訳（メタデータ） (2025-05-31T19:43:00Z)
Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
我々は,大規模シナリオ下での未学習モデルの表現に基づく評価を用いた新しい包括的評価を行う。我々の分析によると、現在の最先端の未学習アプローチは、未学習モデルの表現品質を完全に低下させるか、または完全に低下させる。本稿では,下流のタスククラスと意味的類似性を示す,移動学習の観点からの新たなアンラーニング評価手法を提案する。
論文参考訳（メタデータ） (2025-03-10T07:11:34Z)
Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。 UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文参考訳（メタデータ） (2025-02-27T11:03:33Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
Sample-efficient Learning of Concepts with Theoretical Guarantees: from Data to Concepts without Interventions [7.3784937557132855]
概念ベースモデル(CBM)は、ラベルの予測に使用される画像などの高次元データから解釈可能な概念を学習する。 CBMにおける重要な問題は、概念リーク、すなわち学習された概念の急激な情報であり、事実上「間違った」概念を学ぶことにつながる。本稿では,学習概念の正しさと必要なラベル数に関する理論的保証を提供する枠組みについて述べる。
論文参考訳（メタデータ） (2025-02-10T15:01:56Z)
Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文参考訳（メタデータ） (2024-11-09T08:22:31Z)
RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-31T20:54:35Z)
Erasing Conceptual Knowledge from Language Models [24.63143961814566]
言語記憶の消去(英語: Erasure of Language Memory, ELM)とは、イントロスペクティブな分類器によって定義された分布をマッチングする原理に基づいて構築された概念レベルのアンラーニングのアプローチである。 ELMはこのフレームワークを適用して、コンセプト固有のコンテンツの生成確率を低下させるローランクな更新をターゲットとする。 ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。
論文参考訳（メタデータ） (2024-10-03T17:59:30Z)
Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models [7.9993879763024065]
既存の手法で未学習に使用する目的関数が,対象概念の分離に繋がることを示す。現在の手法の非効率性は、主に特定のプロンプト集合の生成確率の減少に焦点を絞ったものである。 CRS(Concept Retrieval Score)とCCS(Concept Confidence Score)の2つの新しい評価指標を紹介した。
論文参考訳（メタデータ） (2024-09-09T14:38:31Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
MUC: Machine Unlearning for Contrastive Learning with Black-box Evaluation [33.418062986773606]
本稿では,Machine Unlearning for Contrastive Learning(MUC)フレームワークを導入し,既存の手法を適用した。いくつかの手法が未学習者として不十分に動作し、既存の評価ツールが対照的な学習における未学習効果を検証していることに注意して、現在のアプローチにおける制限を識別する。我々は、ACが最先端のパフォーマンスを達成し、正確な未学習(リトレーニング)を近似し、データ所有者がブラックボックス評価によって未学習効果を明確に可視化できることを実証した。
論文参考訳（メタデータ） (2024-06-05T19:55:45Z)
Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。 CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文参考訳（メタデータ） (2024-05-27T18:15:40Z)
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文参考訳（メタデータ） (2023-10-17T17:58:34Z)
Towards Robust Metrics for Concept Representation Evaluation [25.549961337814523]
概念学習モデルは、その表現に不純物を符号化する傾向があることが示されている。両手法における概念表現の純度を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-01-25T00:40:19Z)
Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。これは私たちの最良の知識の一般的な評価の最初の定義です。
論文参考訳（メタデータ） (2022-08-23T09:37:31Z)
Translational Concept Embedding for Generalized Compositional Zero-shot Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-12-20T21:27:51Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)
Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。 PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。 PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文参考訳（メタデータ） (2020-05-11T09:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。