論文の概要: Membership and Memorization in LLM Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2508.07054v1
- Date: Sat, 09 Aug 2025 17:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.677593
- Title: Membership and Memorization in LLM Knowledge Distillation
- Title(参考訳): LLM知識蒸留におけるメンバーシップと記憶
- Authors: Ziqi Zhang, Ali Shahin Shamsabadi, Hanxiao Lu, Yifeng Cai, Hamed Haddadi,
- Abstract要約: 生徒は、教師が個人データで訓練されたときに、教師のプライバシーを継承することができる。
我々は、既存の知識蒸留(KD)アプローチが、教師から生徒への会員登録と記憶のプライバシーリスクを負っていることを実証した。
また,KD手法の暗記と会員プライバシーリスクの相違が顕著であることを示す。
- 参考スコア(独自算出の注目度): 17.9136795763671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Knowledge Distillation (KD) aim to mitigate the high computational demands of Large Language Models (LLMs) by transferring knowledge from a large ''teacher'' to a smaller ''student'' model. However, students may inherit the teacher's privacy when the teacher is trained on private data. In this work, we systematically characterize and investigate membership and memorization privacy risks inherent in six LLM KD techniques. Using instruction-tuning settings that span seven NLP tasks, together with three teacher model families (GPT-2, LLAMA-2, and OPT), and various size student models, we demonstrate that all existing LLM KD approaches carry membership and memorization privacy risks from the teacher to its students. However, the extent of privacy risks varies across different KD techniques. We systematically analyse how key LLM KD components (KD objective functions, student training data and NLP tasks) impact such privacy risks. We also demonstrate a significant disagreement between memorization and membership privacy risks of LLM KD techniques. Finally, we characterize per-block privacy risk and demonstrate that the privacy risk varies across different blocks by a large margin.
- Abstract(参考訳): 知識蒸留(KD)の最近の進歩は、大きな'教師'から小さな'学生'モデルに知識を移すことによって、大規模言語モデル(LLM)の高い計算要求を緩和することを目的としている。
しかし、教師が個人データで訓練を受けた場合、生徒は教師のプライバシーを継承することができる。
本研究では,6つのLDM KD技術に固有のメンバシップと記憶のプライバシーリスクを体系的に評価し,調査する。
教師モデルファミリー(GPT-2, LLAMA-2, OPT)と教師モデルファミリー(GPT-2, LLAMA-2, OPT)と7つのNLPタスクにまたがる指導調整設定を用いて, 既存のLLM KDアプローチはすべて, 教師から生徒へのメンバシップと記憶のプライバシリスクを担っていることを実証した。
しかし、プライバシーリスクの程度は異なるKD技術によって異なる。
我々は,鍵となるLCM KDコンポーネント(KD目標関数,学生訓練データ,NLPタスク)が,そのようなプライバシーリスクに与える影響を体系的に分析する。
また,LLM KD手法の暗記と会員プライバシーリスクの相違が顕著であることを示す。
最後に、ブロックごとのプライバシーリスクを特徴付け、プライバシーリスクが大きなマージンによって異なることを実証する。
関連論文リスト
- Private Memorization Editing: Turning Memorization into a Defense to Strengthen Data Privacy in Large Language Models [1.2874523233023452]
プライベートデータ漏洩防止のためのPME(Private Memorization Editing)を提案する。
我々は、記憶されたPIIを検出し、トレーニングデータのモデル知識を編集することで、PIIの記憶を緩和する。
PMEは、多くの構成においてリークしたPIIの数を効果的に減らすことができ、場合によってはプライバシー攻撃の精度をゼロにすることもある。
論文 参考訳(メタデータ) (2025-06-09T17:57:43Z) - On Membership Inference Attacks in Knowledge Distillation [24.10582361065246]
本稿では,知識蒸留が会員推論攻撃(MIA)に対するモデルロバスト性に与える影響について検討する。
教師モデルと生徒モデルが類似したMIA精度を達成する一方で、教師モデルはMIAの主要なターゲットである会員データをよりよく保護することを示した。
そこで本研究では,5つのプライバシー保護蒸留法を提案し,学生モデルの脆弱性をMIAに還元できることを実証した。
論文 参考訳(メタデータ) (2025-05-17T04:54:26Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.685921135304385]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。
本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。
プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文 参考訳(メタデータ) (2024-07-14T03:05:53Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Students Parrot Their Teachers: Membership Inference on Model
Distillation [54.392069096234074]
知識蒸留によるプライバシを,教師と学生のトレーニングセットの両方で研究する。
私たちの攻撃は、生徒セットと教師セットが類似している場合、または攻撃者が教師セットを毒できる場合、最強です。
論文 参考訳(メタデータ) (2023-03-06T19:16:23Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Towards Zero-Shot Knowledge Distillation for Natural Language Processing [9.223848704267088]
知識蒸留(KD)は、さまざまなディープラーニングベースの自然言語処理(NLP)ソリューションのモデル圧縮に使用される一般的なアルゴリズムです。
通常の表現では、kdは生徒ネットワークへの知識伝達のために教師のトレーニングデータにアクセスする必要がある。
私たちは、NLPのためのゼロショット知識蒸留の最初の作品である私たちの知識のベストを提示します。そこでは、学生はタスク固有のデータなしではるかに大きな教師から学びます。
論文 参考訳(メタデータ) (2020-12-31T08:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。