論文の概要: Be Cautious When Merging Unfamiliar LLMs: A Phishing Model Capable of Stealing Privacy
- arxiv url: http://arxiv.org/abs/2502.11533v1
- Date: Mon, 17 Feb 2025 08:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:29.366717
- Title: Be Cautious When Merging Unfamiliar LLMs: A Phishing Model Capable of Stealing Privacy
- Title(参考訳): 身近なLLMを融合する際の注意:プライバシを盗むことのできるフィッシングモデル
- Authors: Zhenyuan Guo, Yi Shi, Wenlong Meng, Chen Gong, Chengkun Wei, Wenzhi Chen,
- Abstract要約: プライバシを盗むことのできるフィッシングモデルをトレーニングするプライバシ攻撃アプローチであるPhiMMを提案する。
本稿では,攻撃意図を隠蔽する特殊能力を模倣した新しいモデルクローキング手法を提案する。
実験結果から,フィッシングモデルをマージすることで,プライバシー侵害のリスクが高まることが示された。
- 参考スコア(独自算出の注目度): 18.89010679852628
- License:
- Abstract: Model merging is a widespread technology in large language models (LLMs) that integrates multiple task-specific LLMs into a unified one, enabling the merged model to inherit the specialized capabilities of these LLMs. Most task-specific LLMs are sourced from open-source communities and have not undergone rigorous auditing, potentially imposing risks in model merging. This paper highlights an overlooked privacy risk: \textit{an unsafe model could compromise the privacy of other LLMs involved in the model merging.} Specifically, we propose PhiMM, a privacy attack approach that trains a phishing model capable of stealing privacy using a crafted privacy phishing instruction dataset. Furthermore, we introduce a novel model cloaking method that mimics a specialized capability to conceal attack intent, luring users into merging the phishing model. Once victims merge the phishing model, the attacker can extract personally identifiable information (PII) or infer membership information (MI) by querying the merged model with the phishing instruction. Experimental results show that merging a phishing model increases the risk of privacy breaches. Compared to the results before merging, PII leakage increased by 3.9\% and MI leakage increased by 17.4\% on average. We release the code of PhiMM through a link.
- Abstract(参考訳): モデルマージ(英: Model merging)は、大規模言語モデル(LLM)において、複数のタスク固有のLLMを統一されたモデルに統合し、統合されたモデルがこれらのLLMの特殊能力を継承することを可能にする技術である。
ほとんどのタスク固有のLCMはオープンソースコミュニティから提供されており、厳格な監査を受けておらず、モデルマージのリスクを示唆している。
textit{an unsafe modelは、モデルをマージする他のLLMのプライバシを損なう可能性がある。
具体的には、プライバシフィッシング命令データセットを用いて、プライバシを盗むことのできるフィッシングモデルをトレーニングする、プライバシ攻撃アプローチであるPhiMMを提案する。
さらに,攻撃意図を隠蔽する特殊な機能を模倣し,ユーザをフィッシングモデルにマージする新たなモデルクローキング手法を提案する。
被害者がフィッシングモデルをマージすると、フィッシング命令でマージしたモデルをクエリすることで、個人識別可能な情報(PII)や会員情報(MI)を抽出することができる。
実験結果から,フィッシングモデルをマージすることで,プライバシー侵害のリスクが高まることが示された。
合併前の結果と比較すると、PIIリークは3.9 %増加し、MIリークは平均17.4 %増加した。
リンクを通じてPhiMMのコードをリリースする。
関連論文リスト
- Model Inversion in Split Learning for Personalized LLMs: New Insights from Information Bottleneck Theory [11.83473842859642]
この研究は、パーソナライズされたLLMのための分割学習フレームワークにおいて、モデル反転攻撃を識別する最初のものである。
本稿では,第1部が埋め込み空間に表現を投影する2段階攻撃システムを提案し,第2部は生成モデルを用いて埋め込み空間からテキストを復元する。
論文 参考訳(メタデータ) (2025-01-10T13:47:13Z) - PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage [78.33839735526769]
LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。
PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - A Method to Facilitate Membership Inference Attacks in Deep Learning Models [5.724311218570013]
我々は,従来の技術よりも厳格に強力な新たな会員推論攻撃を実演する。
私たちの攻撃は、敵がすべてのトレーニングサンプルを確実に識別する権限を与えます。
これらのモデルは、共通の会員プライバシー監査の下で、増幅された会員リークを効果的に偽装できることを示す。
論文 参考訳(メタデータ) (2024-07-02T03:33:42Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Shake to Leak: Fine-tuning Diffusion Models Can Amplify the Generative Privacy Risk [60.36852134501251]
私たちは新しいプライバシーリスク、Shake-to-Leak(S2L)を明らかにしました。
最悪の場合、S2Lは拡散モデルにおける最先端の会員推論攻撃(MIA)を5.4%のAUCで増幅することができる。
この発見は、拡散モデルによるプライバシーリスクが、これまで認識されていたよりもさらに深刻であることを示している。
論文 参考訳(メタデータ) (2024-03-14T14:48:37Z) - Gotcha! This Model Uses My Code! Evaluating Membership Leakage Risks in Code Models [12.214474083372389]
コードモデルに特化した新しいメンバシップ推論手法であるGotchaを提案する。
我々は,Gotchaが真正率0.95,偽正率0.10でデータメンバーシップを予測できることを示した。
この研究は、コードモデルのプライバシを理解することにより多くの注意を払っている。
論文 参考訳(メタデータ) (2023-10-02T12:50:43Z) - Spear Phishing With Large Language Models [3.2634122554914002]
本研究では,スピアフィッシングに大規模言語モデル(LLM)を用いる方法について検討した。
私はOpenAIのGPT-3.5とGPT-4モデルを使用して、600人以上の英国議会議員に対して独自のフィッシングメッセージを作成します。
私の発見は、これらのメッセージが現実的であるだけでなく、コスト効率も高いという証拠を提供しています。
論文 参考訳(メタデータ) (2023-05-11T16:55:19Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。