論文の概要: CL-attack: Textual Backdoor Attacks via Cross-Lingual Triggers
- arxiv url: http://arxiv.org/abs/2412.19037v1
- Date: Thu, 26 Dec 2024 03:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:21.274710
- Title: CL-attack: Textual Backdoor Attacks via Cross-Lingual Triggers
- Title(参考訳): CL攻撃:言語横断トリガーによるテキストバックドア攻撃
- Authors: Jingyi Zheng, Tianyi Hu, Tianshuo Cong, Xinlei He,
- Abstract要約: CLアタックは、複数の言語を含む特定の構造を持つテキストを使用することでバックドアを注入する。
CL攻撃は, 分類タスクと生成タスクの両方において, 毒性率の低い攻撃成功率をほぼ100%達成できることを示す。
我々はさらに、CL攻撃の影響を部分的に軽減できるTranslateDefenseと呼ばれる新しい防衛装置を開発する。
- 参考スコア(独自算出の注目度): 16.39847823240552
- License:
- Abstract: Backdoor attacks significantly compromise the security of large language models by triggering them to output specific and controlled content. Currently, triggers for textual backdoor attacks fall into two categories: fixed-token triggers and sentence-pattern triggers. However, the former are typically easy to identify and filter, while the latter, such as syntax and style, do not apply to all original samples and may lead to semantic shifts. In this paper, inspired by cross-lingual (CL) prompts of LLMs in real-world scenarios, we propose a higher-dimensional trigger method at the paragraph level, namely CL-attack. CL-attack injects the backdoor by using texts with specific structures that incorporate multiple languages, thereby offering greater stealthiness and universality compared to existing backdoor attack techniques. Extensive experiments on different tasks and model architectures demonstrate that CL-attack can achieve nearly 100% attack success rate with a low poisoning rate in both classification and generation tasks. We also empirically show that the CL-attack is more robust against current major defense methods compared to baseline backdoor attacks. Additionally, to mitigate CL-attack, we further develop a new defense called TranslateDefense, which can partially mitigate the impact of CL-attack.
- Abstract(参考訳): バックドア攻撃は、特定の、制御されたコンテンツを出力するトリガーによって、大きな言語モデルのセキュリティを著しく損なう。
現在、テキストバックドア攻撃のトリガーは、固定トークントリガーと文パターントリガーの2つのカテゴリに分類されている。
しかしながら、前者は典型的には識別やフィルタリングが簡単であるが、後者は構文やスタイルなど、すべてのオリジナルのサンプルには適用されず、セマンティックシフトにつながる可能性がある。
本稿では,実世界のシナリオにおけるLLMの言語横断的プロンプトに着想を得て,段落レベルでの高次元トリガー法,すなわちCL-アタックを提案する。
CLアタックは、複数の言語を含む特定の構造を持つテキストを使用してバックドアを注入し、既存のバックドアアタック技術と比較して、よりステルス性と普遍性を提供する。
各種タスクおよびモデルアーキテクチャに関する広範囲な実験により、CL攻撃は、分類と生成の両方において低い毒性率で、100%近い攻撃成功率を達成できることが示されている。
また, CL攻撃は, ベースラインバックドア攻撃と比較して, 現在の主要な防御方法に対してより堅牢であることを示す。
さらに, CL攻撃を緩和するために, CL攻撃の影響を部分的に緩和できるTranslateDefenseという新しい防衛技術を開発した。
関連論文リスト
- Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Backdoor Contrastive Learning via Bi-level Trigger Optimization [45.41485634654881]
コントラスト学習(CL)は、教師なし表現学習における顕著な能力により、大きな注目を集めている。
最近の研究により、CLのバックドア攻撃に対する脆弱性が明らかになった。
本稿では,この目的を達成するための二段階最適化手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T15:55:53Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。