論文の概要: PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2411.19335v1
- Date: Thu, 28 Nov 2024 19:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:07.639420
- Title: PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning
- Title(参考訳): PEFT-as-an-Attack!Federated Parameter-Efficient Fine-Tuningにおけるジェイルブレイク言語モデル
- Authors: Shenghui Li, Edith C. -H. Ngai, Fanghua Ye, Thiemo Voigt,
- Abstract要約: 本稿では,PEFT-as-an-Attack(PaaA)と呼ばれる新たなセキュリティ脅威をFedPEFTに導入する。
PaaAの評価では、モデルのパラメータの1%未満がトレーニング可能であり、クライアントの少数のサブセットが悪意を持って行動しているため、LoRAなどの代表PEFT手法を用いて攻撃成功率が約80%に達することが判明した。
この結果から,FedPEFTパラダイムの安全性確保と性能維持を同時に行う,より効果的な防衛機構の必要性が示唆された。
- 参考スコア(独自算出の注目度): 8.61459170031022
- License:
- Abstract: Federated Parameter-Efficient Fine-Tuning (FedPEFT) has emerged as a promising paradigm for privacy-preserving and efficient adaptation of Pre-trained Language Models (PLMs) in Federated Learning (FL) settings. It preserves data privacy by keeping the data decentralized and training the model on local devices, ensuring that raw data never leaves the user's device. Moreover, the integration of PEFT methods such as LoRA significantly reduces the number of trainable parameters compared to fine-tuning the entire model, thereby minimizing communication costs and computational overhead. Despite its potential, the security implications of FedPEFT remain underexplored. This paper introduces a novel security threat to FedPEFT, termed PEFT-as-an-Attack (PaaA), which exposes how PEFT can be exploited as an attack vector to circumvent PLMs' safety alignment and generate harmful content in response to malicious prompts. Our evaluation of PaaA reveals that with less than 1% of the model's parameters set as trainable, and a small subset of clients acting maliciously, the attack achieves an approximate 80% attack success rate using representative PEFT methods such as LoRA. To mitigate this threat, we further investigate potential defense strategies, including Robust Aggregation Schemes (RASs) and Post-PEFT Safety Alignment (PPSA). However, our empirical analysis highlights the limitations of these defenses, i.e., even the most advanced RASs, such as DnC and ClippedClustering, struggle to defend against PaaA in scenarios with highly heterogeneous data distributions. Similarly, while PPSA can reduce attack success rates to below 10%, it severely degrades the model's accuracy on the target task. Our results underscore the urgent need for more effective defense mechanisms that simultaneously ensure security and maintain the performance of the FedPEFT paradigm.
- Abstract(参考訳): Federated Parameter-Efficient Fine-Tuning (FedPEFT) は、Federated Learning (FL) 設定におけるPLM(Pre-trained Language Models)のプライバシー保護と効率的な適応のための有望なパラダイムとして登場した。
データを分散化し、モデルをローカルデバイス上でトレーニングすることで、データのプライバシを保護し、生データがユーザのデバイスを離れないことを保証する。
さらに、LoRAなどのPEFT手法の統合により、モデル全体を微調整するよりもトレーニング可能なパラメータの数が大幅に削減され、通信コストと計算オーバーヘッドが最小化される。
その可能性にもかかわらず、FedPEFTのセキュリティ上の影響は未解明のままである。
本稿では,PEFT が PLM の安全アライメントを回避し,悪質なプロンプトに応答して有害なコンテンツを生成するための攻撃ベクトルとして活用可能であることを示す,新たなセキュリティ脅威である PEFT-as-an-Attack (PaaA) について紹介する。
PaaAの評価では、モデルのパラメータの1%未満がトレーニング可能であり、クライアントの少数のサブセットが悪意を持って行動しているため、LoRAなどの代表PEFT手法を用いて攻撃成功率が約80%に達することが判明した。
この脅威を緩和するため,ロバスト・アグリゲーション・スキーム (RAS) やポストPEFTセーフティ・アライメント (PPSA) などの防衛戦略についても検討する。
しかしながら、我々の経験的分析は、これらの防御の限界、すなわちDnCやClippedClusteringのような最も先進的なRASでさえ、高度に異質なデータ分布を持つシナリオにおいてPaaAに対する防御に苦労している点を強調している。
同様に、PPSAは攻撃成功率を10%以下に抑えることができるが、ターゲットタスクにおけるモデルの精度を著しく低下させる。
この結果から,FedPEFTパラダイムの安全性確保と性能維持を同時に行う,より効果的な防衛機構の必要性が示唆された。
関連論文リスト
- Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm [8.905741632785183]
PEFT統合バックドアディフェンスであるObliviateを紹介する。
我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。
本手法は,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
論文 参考訳(メタデータ) (2024-09-21T12:20:18Z) - Resilience in Online Federated Learning: Mitigating Model-Poisoning Attacks via Partial Sharing [6.957420925496431]
フェデレートラーニング(FL)は、プライバシを損なうことなく、分散データ上で機械学習モデルをトレーニングすることを可能にする。
FLは、悪意のあるクライアントがローカルモデルを改ざんしてグローバルモデルを操作するような、モデル中毒攻撃に弱い。
本研究では,この攻撃に対する部分共有オンラインFL(PSO-Fed)アルゴリズムのレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-03-19T19:15:38Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - FedRDF: A Robust and Dynamic Aggregation Function against Poisoning
Attacks in Federated Learning [0.0]
Federated Learning(FL)は、集中型機械学習(ML)デプロイメントに関連する典型的なプライバシ問題に対する、有望なアプローチである。
そのよく知られた利点にもかかわらず、FLはビザンツの行動や毒殺攻撃のようなセキュリティ攻撃に弱い。
提案手法は各種モデル毒殺攻撃に対して試験され,最先端の凝集法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-15T16:42:04Z) - PETA: Parameter-Efficient Trojan Attacks [10.327226660571121]
PETAはPLMの重みを損なう新しいトロイの木馬攻撃である。
攻撃者が被害者のトレーニングプロセスについて十分な知識を持っていない場合でも,攻撃成功率とクリーン精度の両方の観点からPETAの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-01T12:07:44Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。