Fugu-MT 論文翻訳(概要): The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks

論文の概要: The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks

arxiv url: http://arxiv.org/abs/2310.15469v1
Date: Tue, 24 Oct 2023 02:48:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 20:51:29.195549
Title: The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks
Title（参考訳）: Janusインターフェース: 大規模言語モデルの微調整がプライバシリスクをいかに増幅するか
Authors: Xiaoyi Chen, Siyuan Tang, Rui Zhu, Shijun Yan, Lei Jin, Zihao Wang, Liya Su, XiaoFeng Wang, Haixu Tang
Abstract要約: 本稿では,この問題に対する最初の解決策,特にJanus 攻撃と呼ばれる新たな LLM 攻撃経路の発見について報告する。以上の結果より, GPT-3.5 などの LLM が不透過性からPII 抽出に移行できることが示唆された。本研究は,LLMユーティリティとプライバシ保護との間の複雑な相互作用をナビゲートする上での必須事項であることを示す。
参考スコア（独自算出の注目度）: 18.04249592281006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The era post-2018 marked the advent of Large Language Models (LLMs), with innovations such as OpenAI's ChatGPT showcasing prodigious linguistic prowess. As the industry galloped toward augmenting model parameters and capitalizing on vast swaths of human language data, security and privacy challenges also emerged. Foremost among these is the potential inadvertent accrual of Personal Identifiable Information (PII) during web-based data acquisition, posing risks of unintended PII disclosure. While strategies like RLHF during training and Catastrophic Forgetting have been marshaled to control the risk of privacy infringements, recent advancements in LLMs, epitomized by OpenAI's fine-tuning interface for GPT-3.5, have reignited concerns. One may ask: can the fine-tuning of LLMs precipitate the leakage of personal information embedded within training datasets? This paper reports the first endeavor to seek the answer to the question, particularly our discovery of a new LLM exploitation avenue, called the Janus attack. In the attack, one can construct a PII association task, whereby an LLM is fine-tuned using a minuscule PII dataset, to potentially reinstate and reveal concealed PIIs. Our findings indicate that, with a trivial fine-tuning outlay, LLMs such as GPT-3.5 can transition from being impermeable to PII extraction to a state where they divulge a substantial proportion of concealed PII. This research, through its deep dive into the Janus attack vector, underscores the imperative of navigating the intricate interplay between LLM utility and privacy preservation.
Abstract（参考訳）: 2018年以降のこの時代は、OpenAIのChatGPTのような革新的な言語技術によって、大きな言語モデル(LLM)が出現した。業界がモデルパラメータの強化と膨大な人間の言語データの活用に躍起になり、セキュリティとプライバシの課題も浮上した。中でも最も重要なのが、Webベースのデータ取得におけるPII(Personal Identible Information)の潜在的な不注意な付加であり、意図しないPII開示のリスクが生じる。トレーニング中のRLHFや破滅的なフォーッティングといった戦略は、プライバシー侵害のリスクを抑えるために取り組まれてきたが、OpenAIのGPT-3.5のための微調整インターフェースによって象徴された最近のLCMの進歩は、懸念を再燃させた。 LLMの微調整は、トレーニングデータセットに埋め込まれた個人情報の漏洩を引き起こすだろうか? 本稿では,この問題に対する最初の解決策,特にJanus 攻撃と呼ばれる新たな LLM 攻撃経路の発見について報告する。この攻撃では、LLMを極小のPIIデータセットを用いて微調整し、潜在的に再蓄積し、隠蔽されたPIIを明らかにするPIIアソシエーションタスクを構築することができる。以上の結果から, GPT-3.5 などの LLM が不透過性から PII 抽出に移行し, 隠れた PII のかなりの割合を希釈できることが明らかとなった。この研究は、Janus攻撃ベクトルを深く掘り下げることで、LLMユーティリティとプライバシ保護の間の複雑な相互作用をナビゲートする義務を負う。

関連論文リスト

Model Inversion Attacks on Llama 3: Extracting PII from Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理を変革しているが、トレーニングデータを記憶する能力は、重大なプライバシーリスクをもたらす。本稿ではメタによって開発された多言語LLMであるLlama 3.2モデルに対するモデル反転攻撃について検討する。
論文参考訳（メタデータ） (2025-07-06T17:24:17Z)
SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文参考訳（メタデータ） (2025-06-12T07:23:56Z)
LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文参考訳（メタデータ） (2024-08-23T01:37:29Z)
Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文参考訳（メタデータ） (2024-04-25T13:10:48Z)
Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文参考訳（メタデータ） (2024-02-23T18:35:15Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning [24.059033969435973]
本稿では,現代言語モデルのアーキテクチャの脆弱性を狙う2段階のプライバシ攻撃戦略を提案する。比較実験は、様々なデータセットやシナリオで優れた攻撃性能を示す。私たちは、大きな言語モデルの設計において、これらの潜在的なプライバシーリスクを認識し、対処するようコミュニティに呼びかけます。
論文参考訳（メタデータ） (2023-12-10T01:19:59Z)
FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文参考訳（メタデータ） (2023-10-24T19:50:01Z)
Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文参考訳（メタデータ） (2023-10-16T13:23:54Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文参考訳（メタデータ） (2023-09-27T15:15:23Z)
Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文参考訳（メタデータ） (2023-09-21T07:49:55Z)
Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文参考訳（メタデータ） (2022-10-04T10:18:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。