論文の概要: The Janus Interface: How Fine-Tuning in Large Language Models Amplifies
the Privacy Risks
- arxiv url: http://arxiv.org/abs/2310.15469v1
- Date: Tue, 24 Oct 2023 02:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:51:29.195549
- Title: The Janus Interface: How Fine-Tuning in Large Language Models Amplifies
the Privacy Risks
- Title(参考訳): Janusインターフェース: 大規模言語モデルの微調整がプライバシリスクをいかに増幅するか
- Authors: Xiaoyi Chen, Siyuan Tang, Rui Zhu, Shijun Yan, Lei Jin, Zihao Wang,
Liya Su, XiaoFeng Wang, Haixu Tang
- Abstract要約: 本稿では,この問題に対する最初の解決策,特にJanus 攻撃と呼ばれる新たな LLM 攻撃経路の発見について報告する。
以上の結果より, GPT-3.5 などの LLM が不透過性からPII 抽出に移行できることが示唆された。
本研究は,LLMユーティリティとプライバシ保護との間の複雑な相互作用をナビゲートする上での必須事項であることを示す。
- 参考スコア(独自算出の注目度): 18.04249592281006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The era post-2018 marked the advent of Large Language Models (LLMs), with
innovations such as OpenAI's ChatGPT showcasing prodigious linguistic prowess.
As the industry galloped toward augmenting model parameters and capitalizing on
vast swaths of human language data, security and privacy challenges also
emerged. Foremost among these is the potential inadvertent accrual of Personal
Identifiable Information (PII) during web-based data acquisition, posing risks
of unintended PII disclosure. While strategies like RLHF during training and
Catastrophic Forgetting have been marshaled to control the risk of privacy
infringements, recent advancements in LLMs, epitomized by OpenAI's fine-tuning
interface for GPT-3.5, have reignited concerns. One may ask: can the
fine-tuning of LLMs precipitate the leakage of personal information embedded
within training datasets? This paper reports the first endeavor to seek the
answer to the question, particularly our discovery of a new LLM exploitation
avenue, called the Janus attack. In the attack, one can construct a PII
association task, whereby an LLM is fine-tuned using a minuscule PII dataset,
to potentially reinstate and reveal concealed PIIs. Our findings indicate that,
with a trivial fine-tuning outlay, LLMs such as GPT-3.5 can transition from
being impermeable to PII extraction to a state where they divulge a substantial
proportion of concealed PII. This research, through its deep dive into the
Janus attack vector, underscores the imperative of navigating the intricate
interplay between LLM utility and privacy preservation.
- Abstract(参考訳): 2018年以降のこの時代は、OpenAIのChatGPTのような革新的な言語技術によって、大きな言語モデル(LLM)が出現した。
業界がモデルパラメータの強化と膨大な人間の言語データの活用に躍起になり、セキュリティとプライバシの課題も浮上した。
中でも最も重要なのが、Webベースのデータ取得におけるPII(Personal Identible Information)の潜在的な不注意な付加であり、意図しないPII開示のリスクが生じる。
トレーニング中のRLHFや破滅的なフォーッティングといった戦略は、プライバシー侵害のリスクを抑えるために取り組まれてきたが、OpenAIのGPT-3.5のための微調整インターフェースによって象徴された最近のLCMの進歩は、懸念を再燃させた。
LLMの微調整は、トレーニングデータセットに埋め込まれた個人情報の漏洩を引き起こすだろうか?
本稿では,この問題に対する最初の解決策,特にJanus 攻撃と呼ばれる新たな LLM 攻撃経路の発見について報告する。
この攻撃では、LLMを極小のPIIデータセットを用いて微調整し、潜在的に再蓄積し、隠蔽されたPIIを明らかにするPIIアソシエーションタスクを構築することができる。
以上の結果から, GPT-3.5 などの LLM が不透過性から PII 抽出に移行し, 隠れた PII のかなりの割合を希釈できることが明らかとなった。
この研究は、Janus攻撃ベクトルを深く掘り下げることで、LLMユーティリティとプライバシ保護の間の複雑な相互作用をナビゲートする義務を負う。
関連論文リスト
- LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning [24.059033969435973]
本稿では,現代言語モデルのアーキテクチャの脆弱性を狙う2段階のプライバシ攻撃戦略を提案する。
比較実験は、様々なデータセットやシナリオで優れた攻撃性能を示す。
私たちは、大きな言語モデルの設計において、これらの潜在的なプライバシーリスクを認識し、対処するようコミュニティに呼びかけます。
論文 参考訳(メタデータ) (2023-12-10T01:19:59Z) - FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。
機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。
記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文 参考訳(メタデータ) (2023-09-27T15:15:23Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。