論文の概要: Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning
- arxiv url: http://arxiv.org/abs/2404.19597v1
- Date: Tue, 30 Apr 2024 14:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:55:56.814564
- Title: Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning
- Title(参考訳): トランスファー問題:教育指導によるLDMにおけるバックドアアタックの言語間トランスファー可能性
- Authors: Xuanli He, Jun Wang, Qiongkai Xu, Pasquale Minervini, Pontus Stenetorp, Benjamin I. P. Rubinstein, Trevor Cohn,
- Abstract要約: 本研究は多言語モデルに対する言語間バックドア攻撃に焦点を当てている。
本研究では,教育指導データが有毒でない言語において,教育指導データが1つか2つの言語でどのように影響するかを検討する。
本手法は, mT5, BLOOM, GPT-3.5-turbo などのモデルにおいて, 高い攻撃成功率を示し, 複数の言語で95%を突破した。
- 参考スコア(独自算出の注目度): 63.481446315733145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The implications of backdoor attacks on English-centric large language models (LLMs) have been widely examined - such attacks can be achieved by embedding malicious behaviors during training and activated under specific conditions that trigger malicious outputs. However, the impact of backdoor attacks on multilingual models remains under-explored. Our research focuses on cross-lingual backdoor attacks against multilingual LLMs, particularly investigating how poisoning the instruction-tuning data in one or two languages can affect the outputs in languages whose instruction-tuning data was not poisoned. Despite its simplicity, our empirical analysis reveals that our method exhibits remarkable efficacy in models like mT5, BLOOM, and GPT-3.5-turbo, with high attack success rates, surpassing 95% in several languages across various scenarios. Alarmingly, our findings also indicate that larger models show increased susceptibility to transferable cross-lingual backdoor attacks, which also applies to LLMs predominantly pre-trained on English data, such as Llama2, Llama3, and Gemma. Moreover, our experiments show that triggers can still work even after paraphrasing, and the backdoor mechanism proves highly effective in cross-lingual response settings across 25 languages, achieving an average attack success rate of 50%. Our study aims to highlight the vulnerabilities and significant security risks present in current multilingual LLMs, underscoring the emergent need for targeted security measures.
- Abstract(参考訳): 英語中心の大規模言語モデル(LLM)に対するバックドア攻撃は、トレーニング中に悪意ある振る舞いを埋め込んで、悪意のあるアウトプットを引き起こす特定の条件下でアクティベートすることで、広く研究されている。
しかし、バックドア攻撃が多言語モデルに与える影響は未解明のままである。
本研究は,多言語 LLM に対する言語間バックドア攻撃,特に1つか2つの言語における命令学習データの毒性が,命令学習データが有毒でない言語におけるアウトプットに与える影響について検討する。
その単純さにもかかわらず,本手法はmT5,BLOOM,GPT-3.5-turboなどのモデルにおいて顕著な有効性を示した。
また,Llama2,Llama3,Gemmaなどの英語データで事前学習したLLMにも適用可能な,移動可能な言語間バックドア攻撃に対する感受性が増大していることが示唆された。
さらに,本実験では, パラフレージング後もトリガーが動作可能であること, バックドア機構は, 25言語にわたる言語間応答設定において高い効果を示し, 平均攻撃成功率50%を達成した。
本研究の目的は,現在の多言語 LLM における脆弱性と重大なセキュリティリスクを明らかにすることであり,対象とするセキュリティ対策の緊急の必要性を浮き彫りにすることである。
関連論文リスト
- A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [25.381528717141684]
大規模言語モデル(LLM)は、人間の言語理解と複雑な問題解決のギャップを埋める。
LLMはセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすい。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - Backdoor Attack on Multilingual Machine Translation [53.28390057407576]
マルチリンガル機械翻訳(MNMT)システムにはセキュリティ脆弱性がある。
攻撃者は、他の言語で悪意のある翻訳を引き起こすために、有害なデータを低リソースの言語ペアに注入する。
この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。
論文 参考訳(メタデータ) (2024-04-03T01:32:31Z) - A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-30T06:04:04Z) - Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。