論文の概要: On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models
- arxiv url: http://arxiv.org/abs/2411.07070v1
- Date: Mon, 11 Nov 2024 15:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:15.561950
- Title: On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models
- Title(参考訳): ホワイトボックス言語モデルにおける教師付き微調整におけるアクティブプライバシ監査について
- Authors: Qian Sun, Hanpeng Wu, Xi Sheryl Zhang,
- Abstract要約: パーシングは、言語モデル(LM)の教師付き微調整中にプライバシー漏洩リスクを特定し定量化するように設計されている。
我々は,GPT-2,Llama2などの大規模LMに対するMIA(White-box Membering Inference attack)の有効性を改善した。
本研究の目的は,LMのSFTコミュニティに対して,信頼性と使用可能なプライバシ監査ツールの提供と,微調整プロセス中のプライバシ保護に関する貴重な洞察を提供することである。
- 参考スコア(独自算出の注目度): 7.275432177367344
- License:
- Abstract: The pretraining and fine-tuning approach has become the leading technique for various NLP applications. However, recent studies reveal that fine-tuning data, due to their sensitive nature, domain-specific characteristics, and identifiability, pose significant privacy concerns. To help develop more privacy-resilient fine-tuning models, we introduce a novel active privacy auditing framework, dubbed Parsing, designed to identify and quantify privacy leakage risks during the supervised fine-tuning (SFT) of language models (LMs). The framework leverages improved white-box membership inference attacks (MIAs) as the core technology, utilizing novel learning objectives and a two-stage pipeline to monitor the privacy of the LMs' fine-tuning process, maximizing the exposure of privacy risks. Additionally, we have improved the effectiveness of MIAs on large LMs including GPT-2, Llama2, and certain variants of them. Our research aims to provide the SFT community of LMs with a reliable, ready-to-use privacy auditing tool, and to offer valuable insights into safeguarding privacy during the fine-tuning process. Experimental results confirm the framework's efficiency across various models and tasks, emphasizing notable privacy concerns in the fine-tuning process. Project code available for https://github.com/mapleleavesss/PARSING.
- Abstract(参考訳): 事前学習と微調整のアプローチは、様々なNLPアプリケーションにおいて主要な技術となっている。
しかし、最近の研究では、微調整データが、その繊細な性質、ドメイン固有の特徴、識別可能性のために、プライバシー上の懸念を生じさせることが明らかになっている。
言語モデル(LM)の教師付き微調整(SFT)におけるプライバシー漏洩リスクの特定と定量化を目的とした,新たなアクティブプライバシ監査フレームワークであるParsingを導入する。
このフレームワークは、改善されたホワイトボックスメンバーシップ推論攻撃(MIA)をコア技術として活用し、新しい学習目標と2段階パイプラインを使用して、LMの微調整プロセスのプライバシーを監視し、プライバシリスクの暴露を最大化する。
さらに, GPT-2, Llama2, およびそれらの特定の変種を含む大型LMに対するMIAの有効性を改善した。
本研究の目的は,LMのSFTコミュニティに,信頼性と使用可能なプライバシ監査ツールを提供し,微調整プロセス中のプライバシ保護に関する貴重な洞察を提供することである。
実験の結果、様々なモデルやタスクにまたがるフレームワークの効率性を確認し、微調整プロセスにおける顕著なプライバシー上の懸念を強調した。
プロジェクトコードはhttps://github.com/mapleleavess/PARSING.comで公開されている。
関連論文リスト
- PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Tight Auditing of Differentially Private Machine Learning [77.38590306275877]
プライベート機械学習では、既存の監査メカニズムは厳格である。
彼らは不確実な最悪の仮定の下でのみ厳密な見積もりを行う。
我々は、自然(逆向きではない)データセットの厳密なプライバシー推定を得られる改善された監査スキームを設計する。
論文 参考訳(メタデータ) (2023-02-15T21:40:33Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Privacy-Adaptive BERT for Natural Language Understanding [20.821155542969947]
BERTを用いたローカルプライバシ設定下でのNLUモデルの有効性向上について検討する。
本稿では,プライバシ対応lmプリトレーニング手法を提案し,民営化テキスト入力におけるモデル性能を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2021-04-15T15:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。