論文の概要: Selective Forgetting: Advancing Machine Unlearning Techniques and Evaluation in Language Models
- arxiv url: http://arxiv.org/abs/2402.05813v2
- Date: Mon, 16 Dec 2024 12:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:56.055762
- Title: Selective Forgetting: Advancing Machine Unlearning Techniques and Evaluation in Language Models
- Title(参考訳): Selective Forgetting: 機械学習技術の向上と言語モデルの評価
- Authors: Lingzhi Wang, Xingshan Zeng, Jinsong Guo, Kam-Fai Wong, Georg Gottlob,
- Abstract要約: 言語モデルに対する選択的かつきめ細かな未学習を可能にする新しい方法であるSeULを提案する。
我々は2つの革新的な評価指標、感度抽出可能性(S-EL)と感度記憶精度(S-MA)を導入する。
アンラーニングフレームワークをサポートするために,オンラインおよびオフラインのセマンティックスパンアノテーション手法を効率よく提案する。
- 参考スコア(独自算出の注目度): 23.101582510545335
- License:
- Abstract: This paper explores Machine Unlearning (MU), an emerging field that is gaining increased attention due to concerns about neural models unintentionally remembering personal or sensitive information. We present SeUL, a novel method that enables selective and fine-grained unlearning for language models. Unlike previous work that employs a fully reversed training objective in unlearning, SeUL minimizes the negative impact on the capability of language models, particularly in terms of generation. Furthermore, we introduce two innovative evaluation metrics, sensitive extraction likelihood (S-EL) and sensitive memorization accuracy (S-MA), specifically designed to assess the effectiveness of forgetting sensitive information. In support of the unlearning framework, we propose efficient automatic online and offline sensitive span annotation methods. The online selection method, based on language probability scores, ensures computational efficiency, while the offline annotation involves a two-stage LLM-based process for robust verification. In summary, this paper contributes a novel selective unlearning method (SeUL), introduces specialized evaluation metrics (S-EL and S-MA) for assessing sensitive information forgetting, and proposes automatic online and offline sensitive span annotation methods to support the overall unlearning framework and evaluation process.
- Abstract(参考訳): 本稿では,個人やセンシティブな情報を意図せずに記憶するニューラルネットワークに対する懸念から,新たな分野であるマシン・アンラーニング(MU)について考察する。
言語モデルに対する選択的かつきめ細かな未学習を可能にする新しい方法であるSeULを提案する。
アンラーニングにおいて完全に逆のトレーニング目標を用いた以前の研究とは異なり、セウルは言語モデル、特に生成の観点からの能力に対するネガティブな影響を最小化している。
さらに,2つの革新的な評価指標,センシティブ抽出可能性(S-EL)とセンシティブ記憶精度(S-MA)を導入し,センシティブ情報を忘れることの有効性を評価する。
アンラーニングフレームワークをサポートするために,オンラインおよびオフラインのセマンティックスパンアノテーション手法を効率よく提案する。
オンライン選択法は言語確率スコアに基づいて計算効率を保証し、オフラインアノテーションは堅牢な検証のための2段階のLCMプロセスを含む。
本稿では,新しい選択的アンラーニング手法(SeUL)を提案し,センシティブな情報の忘れ方を評価するための特別な評価指標(S-ELとS-MA)を導入し,オンラインおよびオフラインのセンシティブなアノテーションを自動的に提案し,全体的なアンラーニングフレームワークと評価プロセスをサポートする。
関連論文リスト
- CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Machine unlearning through fine-grained model parameters perturbation [26.653596302257057]
そこで本研究では,不エクササイズマシンの非学習戦略であるTop-KパラメータとRandom-kパラメータの微粒化を提案する。
また,機械学習の有効性を評価する上での課題にも取り組む。
論文 参考訳(メタデータ) (2024-01-09T07:14:45Z) - DUCK: Distance-based Unlearning via Centroid Kinematics [40.2428948628001]
本研究は,Centroid Kinematics (DUCK) による遠隔学習(Distance-based Unlearning)と呼ばれる新しいアンラーニングアルゴリズムを導入する。
アルゴリズムの性能評価は、様々なベンチマークデータセットにまたがって行われる。
また,適応学習スコア (Adaptive Unlearning Score, AUS) と呼ばれる新しい指標を導入し, 対象データに対する未学習プロセスの有効性だけでなく, 元のモデルに対する性能損失の定量化も行った。
論文 参考訳(メタデータ) (2023-12-04T17:10:25Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。