論文の概要: The Janus Interface: How Fine-Tuning in Large Language Models Amplifies
the Privacy Risks
- arxiv url: http://arxiv.org/abs/2310.15469v1
- Date: Tue, 24 Oct 2023 02:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:51:29.195549
- Title: The Janus Interface: How Fine-Tuning in Large Language Models Amplifies
the Privacy Risks
- Title(参考訳): Janusインターフェース: 大規模言語モデルの微調整がプライバシリスクをいかに増幅するか
- Authors: Xiaoyi Chen, Siyuan Tang, Rui Zhu, Shijun Yan, Lei Jin, Zihao Wang,
Liya Su, XiaoFeng Wang, Haixu Tang
- Abstract要約: 本稿では,この問題に対する最初の解決策,特にJanus 攻撃と呼ばれる新たな LLM 攻撃経路の発見について報告する。
以上の結果より, GPT-3.5 などの LLM が不透過性からPII 抽出に移行できることが示唆された。
本研究は,LLMユーティリティとプライバシ保護との間の複雑な相互作用をナビゲートする上での必須事項であることを示す。
- 参考スコア(独自算出の注目度): 18.04249592281006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The era post-2018 marked the advent of Large Language Models (LLMs), with
innovations such as OpenAI's ChatGPT showcasing prodigious linguistic prowess.
As the industry galloped toward augmenting model parameters and capitalizing on
vast swaths of human language data, security and privacy challenges also
emerged. Foremost among these is the potential inadvertent accrual of Personal
Identifiable Information (PII) during web-based data acquisition, posing risks
of unintended PII disclosure. While strategies like RLHF during training and
Catastrophic Forgetting have been marshaled to control the risk of privacy
infringements, recent advancements in LLMs, epitomized by OpenAI's fine-tuning
interface for GPT-3.5, have reignited concerns. One may ask: can the
fine-tuning of LLMs precipitate the leakage of personal information embedded
within training datasets? This paper reports the first endeavor to seek the
answer to the question, particularly our discovery of a new LLM exploitation
avenue, called the Janus attack. In the attack, one can construct a PII
association task, whereby an LLM is fine-tuned using a minuscule PII dataset,
to potentially reinstate and reveal concealed PIIs. Our findings indicate that,
with a trivial fine-tuning outlay, LLMs such as GPT-3.5 can transition from
being impermeable to PII extraction to a state where they divulge a substantial
proportion of concealed PII. This research, through its deep dive into the
Janus attack vector, underscores the imperative of navigating the intricate
interplay between LLM utility and privacy preservation.
- Abstract(参考訳): 2018年以降のこの時代は、OpenAIのChatGPTのような革新的な言語技術によって、大きな言語モデル(LLM)が出現した。
業界がモデルパラメータの強化と膨大な人間の言語データの活用に躍起になり、セキュリティとプライバシの課題も浮上した。
中でも最も重要なのが、Webベースのデータ取得におけるPII(Personal Identible Information)の潜在的な不注意な付加であり、意図しないPII開示のリスクが生じる。
トレーニング中のRLHFや破滅的なフォーッティングといった戦略は、プライバシー侵害のリスクを抑えるために取り組まれてきたが、OpenAIのGPT-3.5のための微調整インターフェースによって象徴された最近のLCMの進歩は、懸念を再燃させた。
LLMの微調整は、トレーニングデータセットに埋め込まれた個人情報の漏洩を引き起こすだろうか?
本稿では,この問題に対する最初の解決策,特にJanus 攻撃と呼ばれる新たな LLM 攻撃経路の発見について報告する。
この攻撃では、LLMを極小のPIIデータセットを用いて微調整し、潜在的に再蓄積し、隠蔽されたPIIを明らかにするPIIアソシエーションタスクを構築することができる。
以上の結果から, GPT-3.5 などの LLM が不透過性から PII 抽出に移行し, 隠れた PII のかなりの割合を希釈できることが明らかとなった。
この研究は、Janus攻撃ベクトルを深く掘り下げることで、LLMユーティリティとプライバシ保護の間の複雑な相互作用をナビゲートする義務を負う。
関連論文リスト
- The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Teach Large Language Models to Forget Privacy [14.959123531802582]
大きな言語モデル(LLM)は強力であることが証明されているが、プライバシリークのリスクは依然として重大な懸念である。
差別化プライバシやホモモルフィック暗号化といった従来のプライバシ保護手法は、ブラックボックスAPIのみの設定では不十分である。
本稿では,LLMのローカルプライバシ問題に対処するための最初のフレームワークであるPrompt2Forgetを提案する。
論文 参考訳(メタデータ) (2023-12-30T01:26:42Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models
via Contextual Integrity Theory [86.8514623654506]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - What can we learn from Data Leakage and Unlearning for Law? [0.0]
大規模言語モデル(LLM)は、トレーニングデータ(電子メールや電話番号などの個人識別可能な情報(PII)を含む)を記憶し、推論中にそれを漏洩させるため、プライバシー上の懸念がある。
忘れられる権利(right to be forget)”のようなプライバシー法に従うために、抽出に最も脆弱なユーザのデータポイントを削除することができる。
また, トレーニング前段階で記憶したトレーニング前データ(およびPII)を漏洩させる。
論文 参考訳(メタデータ) (2023-07-19T22:14:58Z) - ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。
本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文 参考訳(メタデータ) (2023-07-04T18:53:47Z) - Multi-step Jailbreaking Privacy Attacks on ChatGPT [47.10284364632862]
我々は,OpenAI の ChatGPT と ChatGPT によって強化された New Bing のプライバシー上の脅威について検討した。
我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文 参考訳(メタデータ) (2023-04-11T13:05:04Z) - Analyzing Leakage of Personally Identifiable Information in Language
Models [13.467340359030855]
言語モデル (LM) は, 文レベルのメンバシップ推論と再構築攻撃を通じて, トレーニングデータに関する情報を漏らすことが示されている。
スクレイビング技術は減少するが、PII漏れのリスクを防止しない。
ユーザーレベルのプライバシーを保証し、PIIの開示を防止するために設計された、差分プライバシーのようなアルゴリズムによる防御の程度は不明確である。
論文 参考訳(メタデータ) (2023-02-01T16:04:48Z) - Survey: Leakage and Privacy at Inference Time [59.957056214792665]
公開されている機械学習(ML)モデルからのデータの漏洩は、ますます重要になっている分野である。
公開モデルの最も可能性の高いシナリオとして、推論時のリークに注目します。
本稿では,不随意・不随意の漏洩,防御,そして現在利用可能な評価指標と応用にまたがる分類法を提案する。
論文 参考訳(メタデータ) (2021-07-04T12:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。