論文の概要: Selective Forgetting: Advancing Machine Unlearning Techniques and
Evaluation in Language Models
- arxiv url: http://arxiv.org/abs/2402.05813v1
- Date: Thu, 8 Feb 2024 16:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:04:24.003618
- Title: Selective Forgetting: Advancing Machine Unlearning Techniques and
Evaluation in Language Models
- Title(参考訳): Selective Forgetting: 機械学習技術の向上と言語モデルの評価
- Authors: Lingzhi Wang, Xingshan Zeng, Jinsong Guo, Kam-Fai Wong and Georg
Gottlob
- Abstract要約: 本研究では,個人や機密データを不注意に保持するニューラルモデルに関する懸念について検討する。
言語モデル内で、正確かつ選択的に忘れることを実現するために、新しいアプローチが導入された。
S-EL(Sensitive Information extract Likelihood)とS-MA(Sensitive Information Memory Accuracy)の2つの革新的な評価指標が提案されている。
- 参考スコア(独自算出の注目度): 24.784439330058095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aim of this study is to investigate Machine Unlearning (MU), a burgeoning
field focused on addressing concerns related to neural models inadvertently
retaining personal or sensitive data. Here, a novel approach is introduced to
achieve precise and selective forgetting within language models. Unlike
previous methodologies that adopt completely opposing training objectives, this
approach aims to mitigate adverse effects on language model performance,
particularly in generation tasks. Furthermore, two innovative evaluation
metrics are proposed: Sensitive Information Extraction Likelihood (S-EL) and
Sensitive Information Memory Accuracy (S-MA), designed to gauge the
effectiveness of sensitive information elimination. To reinforce the forgetting
framework, an effective method for annotating sensitive scopes is presented,
involving both online and offline strategies. The online selection mechanism
leverages language probability scores to ensure computational efficiency, while
the offline annotation entails a robust two-stage process based on Large
Language Models (LLMs).
- Abstract(参考訳): 本研究の目的は、個人または機密データを不注意に保持するニューラルモデルに関連する懸念に対処することに焦点を当てた新興分野であるマシン・アンラーニング(MU)を調査することである。
ここでは、言語モデル内で正確かつ選択的に忘れることを実現するために、新しいアプローチが導入された。
完全に反対のトレーニング目標を採用する従来の方法論とは異なり、このアプローチは言語モデルのパフォーマンス、特に生成タスクに対する悪影響を軽減することを目的としている。
さらに、感度情報抽出類似度(S-EL)と感度情報記憶精度(S-MA)の2つの革新的な評価指標が提案されている。
忘れ去られたフレームワークを強化するために、オンラインとオフラインの両方の戦略を含む、センシティブなスコープを注釈する効果的な方法が提示される。
オンライン選択メカニズムは、言語確率スコアを活用して計算効率を確保する一方で、オフラインアノテーションは、LLM(Large Language Models)に基づいた堅牢な2段階プロセスを必要とする。
関連論文リスト
- Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - MISLEAD: Manipulating Importance of Selected features for Learning Epsilon in Evasion Attack Deception [0.35998666903987897]
回避攻撃は入力データに正確な摂動を導入してモデルを操作し、誤った予測を引き起こす。
私たちのアプローチは、モデル脆弱性を理解するためのSHAPベースの分析から始まり、ターゲットの回避戦略の考案に不可欠です。
バイナリ探索アルゴリズムを用いた最適エプシロン法は,回避に要する最小エプシロンを効率的に決定する。
論文 参考訳(メタデータ) (2024-04-24T05:22:38Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Machine unlearning through fine-grained model parameters perturbation [26.653596302257057]
そこで本研究では,不エクササイズマシンの非学習戦略であるTop-KパラメータとRandom-kパラメータの微粒化を提案する。
また,機械学習の有効性を評価する上での課題にも取り組む。
論文 参考訳(メタデータ) (2024-01-09T07:14:45Z) - DUCK: Distance-based Unlearning via Centroid Kinematics [40.2428948628001]
本研究は,Centroid Kinematics (DUCK) による遠隔学習(Distance-based Unlearning)と呼ばれる新しいアンラーニングアルゴリズムを導入する。
アルゴリズムの性能評価は、様々なベンチマークデータセットにまたがって行われる。
また,適応学習スコア (Adaptive Unlearning Score, AUS) と呼ばれる新しい指標を導入し, 対象データに対する未学習プロセスの有効性だけでなく, 元のモデルに対する性能損失の定量化も行った。
論文 参考訳(メタデータ) (2023-12-04T17:10:25Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。