論文の概要: BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models
- arxiv url: http://arxiv.org/abs/2401.12242v1
- Date: Sat, 20 Jan 2024 04:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:07:01.945528
- Title: BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models
- Title(参考訳): BadChain: 大きな言語モデルのためのバックドアチェーンプロンプト
- Authors: Zhen Xiang, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha
Poovendran, Bo Li
- Abstract要約: BadChainは大規模な言語モデル(LLM)に対する最初のバックドア攻撃であり、COTプロンプトを採用している。
2つのCOT戦略と6つのベンチマークタスクに対するBadChainの有効性を示す。
BadChain は LLM にとって深刻な脅威であり、堅牢で効果的な将来の防衛の開発の緊急性を強調している。
- 参考スコア(独自算出の注目度): 15.381273199132433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are shown to benefit from chain-of-thought (COT)
prompting, particularly when tackling tasks that require systematic reasoning
processes. On the other hand, COT prompting also poses new vulnerabilities in
the form of backdoor attacks, wherein the model will output unintended
malicious content under specific backdoor-triggered conditions during
inference. Traditional methods for launching backdoor attacks involve either
contaminating the training dataset with backdoored instances or directly
manipulating the model parameters during deployment. However, these approaches
are not practical for commercial LLMs that typically operate via API access. In
this paper, we propose BadChain, the first backdoor attack against LLMs
employing COT prompting, which does not require access to the training dataset
or model parameters and imposes low computational overhead. BadChain leverages
the inherent reasoning capabilities of LLMs by inserting a backdoor reasoning
step into the sequence of reasoning steps of the model output, thereby altering
the final response when a backdoor trigger exists in the query prompt.
Empirically, we show the effectiveness of BadChain for two COT strategies
across four LLMs (Llama2, GPT-3.5, PaLM2, and GPT-4) and six complex benchmark
tasks encompassing arithmetic, commonsense, and symbolic reasoning. Moreover,
we show that LLMs endowed with stronger reasoning capabilities exhibit higher
susceptibility to BadChain, exemplified by a high average attack success rate
of 97.0% across the six benchmark tasks on GPT-4. Finally, we propose two
defenses based on shuffling and demonstrate their overall ineffectiveness
against BadChain. Therefore, BadChain remains a severe threat to LLMs,
underscoring the urgency for the development of robust and effective future
defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に体系的な推論プロセスを必要とするタスクに対処する場合、COT(チェーン・オブ・シント)プロンプトの恩恵を受けることが示されている。
一方、cotプロンプトはバックドア攻撃という形で新たな脆弱性を提起する。モデルでは、推論中に特定のバックドアトリガー条件下で意図しない悪意のあるコンテンツを出力する。
従来のバックドア攻撃の方法は、バックドアされたインスタンスでトレーニングデータセットを汚染するか、デプロイ中にモデルパラメータを直接操作する。
しかし、これらのアプローチは一般的にAPIアクセスを介して動作する商用LLMには実用的ではない。
本稿では,トレーニングデータセットやモデルパラメータへのアクセスを必要とせず,計算オーバーヘッドの少ないcotプロンプトを用いた,llmに対する最初のバックドア攻撃であるbadchainを提案する。
BadChainは、モデル出力の推論ステップのシーケンスにバックドア推論ステップを挿入し、クエリプロンプトにバックドアトリガーが存在する場合に最終応答を変更することで、LCMの固有の推論機能を活用する。
実験では、4つのLCM(Llama2, GPT-3.5, PaLM2, GPT-4)と6つの複雑なベンチマークタスクの2つのCOT戦略に対するBadChainの有効性を示す。
さらに,強い推論能力を有するLCMはBadChainに対する感受性が高く,GPT-4の6つのベンチマークタスクの平均攻撃成功率は97.0%であった。
最後に,シャッフルに基づく2つの防御方法を提案し,バッドチェーンに対する全体的な非効率性を示す。
したがって、BadChainはLLMに対する深刻な脅威であり、堅牢で効果的な将来の防衛を開発するための緊急性を強調している。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。
本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models [35.77228114378362]
バックドア攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
これらの課題に対処するための新しいソリューションとして、CoS(Chain-of-Scrutiny)を提案する。
CoS は LLM を誘導して入力の詳細な推論ステップを生成し、最後に答えの整合性を確保するために推論プロセスを精査する。
論文 参考訳(メタデータ) (2024-06-10T00:53:25Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。