論文の概要: The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks
- arxiv url: http://arxiv.org/abs/2310.15469v2
- Date: Sun, 12 May 2024 07:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 01:12:47.382710
- Title: The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks
- Title(参考訳): Janusインターフェース: 大規模言語モデルにおける微調整がプライバシリスクをいかに増幅するか
- Authors: Xiaoyi Chen, Siyuan Tang, Rui Zhu, Shijun Yan, Lei Jin, Zihao Wang, Liya Su, Zhikun Zhang, XiaoFeng Wang, Haixu Tang,
- Abstract要約: 我々は,言語モデルにおける事前学習データから忘れられたPIIを復元するために,微調整インタフェースを利用した新しい攻撃であるJanusを提案する。
実験の結果,Janusはベースラインに比べて10倍以上のプライバシーリスクを増幅していることがわかった。
分析の結果,OpenAIとAzure AI Studioが提供する既存の微調整APIがJanus攻撃の影響を受けやすいことが確認された。
- 参考スコア(独自算出の注目度): 19.364127374679253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements of large language models (LLMs) have raised public concerns about the privacy leakage of personally identifiable information (PII) within their extensive training datasets. Recent studies have demonstrated that an adversary could extract highly sensitive privacy data from the training data of LLMs with carefully designed prompts. However, these attacks suffer from the model's tendency to hallucinate and catastrophic forgetting (CF) in the pre-training stage, rendering the veracity of divulged PIIs negligible. In our research, we propose a novel attack, Janus, which exploits the fine-tuning interface to recover forgotten PIIs from the pre-training data in LLMs. We formalize the privacy leakage problem in LLMs and explain why forgotten PIIs can be recovered through empirical analysis on open-source language models. Based upon these insights, we evaluate the performance of Janus on both open-source language models and two latest LLMs, i.e., GPT-3.5-Turbo and LLaMA-2-7b. Our experiment results show that Janus amplifies the privacy risks by over 10 times in comparison with the baseline and significantly outperforms the state-of-the-art privacy extraction attacks including prefix attacks and in-context learning (ICL). Furthermore, our analysis validates that existing fine-tuning APIs provided by OpenAI and Azure AI Studio are susceptible to our Janus attack, allowing an adversary to conduct such an attack at a low cost.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、個人識別可能な情報(PII)のプライバシー漏洩を、広範囲にわたるトレーニングデータセット内で公に懸念している。
近年の研究では、敵が慎重に設計されたプロンプトを用いて、LLMのトレーニングデータから高感度なプライバシーデータを抽出できることが示されている。
しかし、これらの攻撃は、訓練前の段階での幻覚と破滅的忘れ(CF)の傾向に悩まされ、希釈されたPIIの正確性は無視できない。
本研究では,LLMの事前学習データから忘れられたPIIを復元するために,微調整インタフェースを利用した新しい攻撃であるJanusを提案する。
LLMのプライバシリーク問題を形式化し,オープンソース言語モデルの実証分析により,なぜ忘れられたPIIを回収できるのかを説明する。
これらの知見に基づき、Janusのオープンソース言語モデルと最新のLLMであるGPT-3.5-TurboとLLaMA-2-7bの性能を評価する。
実験の結果,Janusはベースラインと比較して10倍以上のプライバシーリスクを増幅し,プレフィックス攻撃やテキスト内学習(ICL)を含む最先端のプライバシ抽出攻撃を著しく上回っていることがわかった。
さらに、我々の分析は、OpenAIとAzure AI Studioが提供する既存の微調整APIがJanus攻撃の影響を受けやすいことを検証し、敵がそのような攻撃を低コストで実施できるようにする。
関連論文リスト
- LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning [24.059033969435973]
本稿では,現代言語モデルのアーキテクチャの脆弱性を狙う2段階のプライバシ攻撃戦略を提案する。
比較実験は、様々なデータセットやシナリオで優れた攻撃性能を示す。
私たちは、大きな言語モデルの設計において、これらの潜在的なプライバシーリスクを認識し、対処するようコミュニティに呼びかけます。
論文 参考訳(メタデータ) (2023-12-10T01:19:59Z) - FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。
機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。
記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文 参考訳(メタデータ) (2023-09-27T15:15:23Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。