論文の概要: Underestimated Privacy Risks for Minority Populations in Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2412.08559v3
- Date: Sun, 01 Jun 2025 00:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.921563
- Title: Underestimated Privacy Risks for Minority Populations in Large Language Model Unlearning
- Title(参考訳): 大規模言語モデル学習におけるマイノリティ集団のプライバシーリスクの過小評価
- Authors: Rongzhe Wei, Mufei Li, Mohsen Ghassemi, Eleonora Kreačić, Yifan Li, Xiang Yue, Bo Li, Vamsi K. Potluru, Pan Li, Eli Chien,
- Abstract要約: 大規模言語モデル(LLM)は、センシティブで人間の生成したデータを埋め込んで、未学習の方法の必要性を喚起する。
既存のフレームワークの盲点を強調するために,補完的な少数派対応評価フレームワークを導入する。
- 参考スコア(独自算出の注目度): 20.018234150653885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) embed sensitive, human-generated data, prompting the need for unlearning methods. Although certified unlearning offers strong privacy guarantees, its restrictive assumptions make it unsuitable for LLMs, giving rise to various heuristic approaches typically assessed through empirical evaluations. These standard evaluations randomly select data for removal, apply unlearning techniques, and use membership inference attacks (MIAs) to compare unlearned models against models retrained without the removed data. However, to ensure robust privacy protections for every data point, it is essential to account for scenarios in which certain data subsets face elevated risks. Prior research suggests that outliers, particularly including data tied to minority groups, often exhibit higher memorization propensity which indicates they may be more difficult to unlearn. Building on these insights, we introduce a complementary, minority-aware evaluation framework to highlight blind spots in existing frameworks. We substantiate our findings with carefully designed experiments, using canaries with personally identifiable information (PII) to represent these minority subsets and demonstrate that they suffer at least 20% higher privacy leakage across various unlearning methods, MIAs, datasets, and LLM scales. Our proposed minority-aware evaluation framework marks an essential step toward more equitable and comprehensive assessments of LLM unlearning efficacy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、センシティブで人間の生成したデータを埋め込んで、未学習の方法の必要性を喚起する。
認定されていないアンラーニングは強力なプライバシー保証を提供するが、その制限的な仮定はLLMに不適当であり、経験的評価によって評価される様々なヒューリスティックなアプローチを生み出している。
これらの標準評価は、非学習的手法を適用し、無学習モデルと比較するために、無学習モデルと非学習モデルの比較にMIA(Community Inference attack)を使用する。
しかし、すべてのデータポイントに対して堅牢なプライバシ保護を確保するためには、特定のデータサブセットが高いリスクに直面しているシナリオを考慮することが不可欠である。
以前の研究では、特にマイノリティグループに関連付けられたデータを含むアウトリージは、記憶度が高くなることがしばしば示されており、学習が困難であることを示している。
これらの知見に基づいて、既存のフレームワークの盲点を強調するために、補完的で少数派を意識した評価フレームワークを導入します。
我々は、これらの部分集合を表すために、個人識別可能な情報を持つカナリア(PII)を用いて、慎重に設計された実験により、我々の発見を裏付けるとともに、様々な未学習メソッド、MIA、データセット、LLMスケールに対して、少なくとも20%高いプライバシー漏洩を被ることを示した。
提案するマイノリティ・アウェア・アセスメント・フレームワークは,LLMの未学習の有効性をより公平かつ包括的に評価するための重要なステップである。
関連論文リスト
- Membership Inference Attacks fueled by Few-Short Learning to detect privacy leakage tackling data integrity [7.8973037023478785]
ディープラーニングモデルは、トレーニングデータの一部を記憶し、プライバシリークを生成する。
本稿では、深層学習モデルのプライバシー侵害の評価を容易にするFeS-MIAモデルとして考案されたFew-Shot学習に基づくMIAを提案する。
また,Log-MIA尺度と呼ばれる,解釈可能な量的・質的なプライバシ尺度を提案する。
論文 参考訳(メタデータ) (2025-03-12T13:09:43Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [94.13848736705575]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - Investigating Privacy Bias in Training Data of Language Models [1.3167450470598043]
プライバシーバイアス(英: privacy bias)とは、あるコンテキスト内で情報の流れが適切に流れる際の歪を指す。
このスキューは、既存の期待に沿うか、システムの問題の症状を示すかもしれない。
文脈整合性に基づく手法を用いてプライバシーバイアスを評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - On the Privacy Effect of Data Enhancement via the Lens of Memorization [20.63044895680223]
我々は,記憶化という新たな視点からプライバシを調査することを提案する。
記憶のレンズを通して、以前デプロイされたMIAは、より高いプライバシーリスクを持つサンプルを特定する可能性が低いため、誤解を招く結果をもたらすことがわかった。
一般化ギャップとプライバシリークは, これまでの結果に比べて相関が低いことを示す。
論文 参考訳(メタデータ) (2022-08-17T13:02:17Z) - Quantifying and Mitigating Privacy Risks of Contrastive Learning [4.909548818641602]
我々は、会員推定と属性推論のレンズを通して、コントラスト学習の最初のプライバシ分析を行う。
その結果,コントラストモデルではメンバシップ推論攻撃に弱いが,教師付きモデルに比べて属性推論攻撃に弱いことが示唆された。
この状況を改善するため,プライバシ保護型コントラスト学習機構であるTalosを提案する。
論文 参考訳(メタデータ) (2021-02-08T11:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。