論文の概要: Enhancing Adversarial Attacks through Chain of Thought
- arxiv url: http://arxiv.org/abs/2410.21791v1
- Date: Tue, 29 Oct 2024 06:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:03.254627
- Title: Enhancing Adversarial Attacks through Chain of Thought
- Title(参考訳): 思考の連鎖による敵攻撃の強化
- Authors: Jingbo Su,
- Abstract要約: 勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) have demonstrated impressive performance across various domains but remain susceptible to safety concerns. Prior research indicates that gradient-based adversarial attacks are particularly effective against aligned LLMs and the chain of thought (CoT) prompting can elicit desired answers through step-by-step reasoning. This paper proposes enhancing the robustness of adversarial attacks on aligned LLMs by integrating CoT prompts with the greedy coordinate gradient (GCG) technique. Using CoT triggers instead of affirmative targets stimulates the reasoning abilities of backend LLMs, thereby improving the transferability and universality of adversarial attacks. We conducted an ablation study comparing our CoT-GCG approach with Amazon Web Services auto-cot. Results revealed our approach outperformed both the baseline GCG attack and CoT prompting. Additionally, we used Llama Guard to evaluate potentially harmful interactions, providing a more objective risk assessment of entire conversations compared to matching outputs to rejection phrases. The code of this paper is available at https://github.com/sujingbo0217/CS222W24-LLM-Attack.
- Abstract(参考訳): 大規模言語モデル (LLM) は、様々な領域で顕著な性能を示してきたが、安全上の懸念がある。
従来の研究では、勾配に基づく敵対的攻撃は特にLLMに対して有効であり、思考の連鎖(CoT)がステップバイステップの推論を通じて望ましい回答を導き出す可能性があることが示されている。
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することにより,協調LDMに対する敵攻撃の堅牢性を高めることを提案する。
肯定的ターゲットの代わりにCoTトリガーを使用することで、バックエンドのLDMの推論能力が促進され、敵攻撃の伝達性と普遍性が改善される。
われわれはCoT-GCGとAmazon Web Servicesのオートコットを比較検討した。
その結果,本手法はGCG攻撃とCoTプロンプトの両方に優れていた。
さらに,Llama Guardを用いて潜在的に有害な相互作用を評価する。
本論文のコードはhttps://github.com/sujingbo0217/CS222W24-LLM-Attackで公開されている。
関連論文リスト
- Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models [16.938267820586024]
本稿では,GCGの設計を深く掘り下げて,効率の良い逆ジェイルブレイク法であるFaster-GCGを提案する。
実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができることが示された。
論文 参考訳(メタデータ) (2024-10-20T11:27:41Z) - AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation [42.797865918373326]
本稿では,トランスフォーマーを用いた大規模言語モデル(LLM)のジェイルブレイク攻撃に対する脆弱性について検討する。
本稿では,ジェイルブレイクを容易にするために,モデルの注意点を操作する拡張手法を提案する。
我々の戦略はまた、目に見えない有害な目標とブラックボックスのLSMの両方に対して堅牢な攻撃伝達性を示す。
論文 参考訳(メタデータ) (2024-10-11T17:55:09Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - Boosting Jailbreak Attack with Momentum [5.047814998088682]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。
textbfMomentum textbfAccelerated GtextbfCG(textbfMAC)攻撃を導入する。
論文 参考訳(メタデータ) (2024-05-02T12:18:14Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Certifying LLM Safety against Adversarial Prompting [75.19953634352258]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。