論文の概要: Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging
- arxiv url: http://arxiv.org/abs/2502.16094v1
- Date: Sat, 22 Feb 2025 05:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:51:28.810459
- Title: Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging
- Title(参考訳): Merger-as-a-Stealer: モデルマージによる配向LLMのステアリングターゲットPII
- Authors: Lin Lu, Zhigang Zuo, Ziji Sheng, Pan Zhou,
- Abstract要約: この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
- 参考スコア(独自算出の注目度): 49.270050440553575
- License:
- Abstract: Model merging has emerged as a promising approach for updating large language models (LLMs) by integrating multiple domain-specific models into a cross-domain merged model. Despite its utility and plug-and-play nature, unmonitored mergers can introduce significant security vulnerabilities, such as backdoor attacks and model merging abuse. In this paper, we identify a novel and more realistic attack surface where a malicious merger can extract targeted personally identifiable information (PII) from an aligned model with model merging. Specifically, we propose \texttt{Merger-as-a-Stealer}, a two-stage framework to achieve this attack: First, the attacker fine-tunes a malicious model to force it to respond to any PII-related queries. The attacker then uploads this malicious model to the model merging conductor and obtains the merged model. Second, the attacker inputs direct PII-related queries to the merged model to extract targeted PII. Extensive experiments demonstrate that \texttt{Merger-as-a-Stealer} successfully executes attacks against various LLMs and model merging methods across diverse settings, highlighting the effectiveness of the proposed framework. Given that this attack enables character-level extraction for targeted PII without requiring any additional knowledge from the attacker, we stress the necessity for improved model alignment and more robust defense mechanisms to mitigate such threats.
- Abstract(参考訳): モデルマージは、複数のドメイン固有のモデルをクロスドメインマージモデルに統合することで、大きな言語モデル(LLM)を更新するための有望なアプローチとして登場した。
その実用性とプラグアンドプレイの性質にもかかわらず、監視されていないマージは、バックドア攻撃やモデルマージの悪用など、重大なセキュリティ上の脆弱性をもたらす可能性がある。
本稿では、モデルマージと整合したモデルから、悪意ある合併によって個人識別可能な情報(PII)を抽出できる、新しくより現実的な攻撃面を同定する。
具体的には、攻撃を行うための2段階のフレームワークである‘texttt{Merger-as-a-Stealer} を提案する。
攻撃者は、この悪意あるモデルをモデルマージ導体にアップロードし、マージされたモデルを取得する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
大規模な実験により, 様々な LLM やモデルマージメソッドに対する攻撃を, 様々な設定でうまく実行し, 提案したフレームワークの有効性を強調した。
この攻撃は、攻撃者から追加の知識を必要とせず、ターゲットPIIの文字レベル抽出を可能にするので、このような脅威を軽減するために、モデルアライメントの改善とより堅牢な防御機構の必要性を強調します。
関連論文リスト
- LoBAM: LoRA-Based Backdoor Attack on Model Merging [27.57659381949931]
モデルマージ(Model merging)は、異なるタスクに微調整された複数のモデルを統合して、複数のドメインにまたがる汎用モデルを作成する、新たなテクニックである。
既存の研究は、かなりの計算資源を仮定することで、そのような攻撃のリスクを実証しようとするものである。
最小限のトレーニングリソースで高い攻撃成功率を得る方法であるLoBAMを提案する。
論文 参考訳(メタデータ) (2024-11-23T20:41:24Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging [25.327483618051378]
モデル統合シナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。
実験結果から,現在のLarge Language Model (LLM) の透かし技術は統合されたモデルでは生き残れないことが示唆された。
本研究の目的は,モデルIP保護手法の堅牢性評価において,モデルマージが不可欠であることを示すことである。
論文 参考訳(メタデータ) (2024-04-08T04:30:33Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion
Model [14.834360664780709]
モデルアタック(MIA)は、深層学習モデルの到達不可能なトレーニングセットからプライベートデータを復元することを目的としている。
そこで本研究では,条件拡散モデル(CDM)を応用したMIA手法を開発し,対象ラベル下でのサンプルの回収を行う。
実験結果から,本手法は従来手法よりも高い精度で類似したサンプルをターゲットラベルに生成できることが示唆された。
論文 参考訳(メタデータ) (2023-07-17T12:14:24Z) - Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。
この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。
メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文 参考訳(メタデータ) (2021-09-05T03:27:46Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。