論文の概要: Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues
- arxiv url: http://arxiv.org/abs/2410.10700v1
- Date: Mon, 14 Oct 2024 16:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:05:09.775369
- Title: Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues
- Title(参考訳): 自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走機
- Authors: Qibing Ren, Hao Li, Dongrui Liu, Zhanxu Xie, Xiaoya Lu, Yu Qiao, Lei Sha, Junchi Yan, Lizhuang Ma, Jing Shao,
- Abstract要約: 本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
- 参考スコア(独自算出の注目度): 88.96201324719205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study exposes the safety vulnerabilities of Large Language Models (LLMs) in multi-turn interactions, where malicious users can obscure harmful intents across several queries. We introduce ActorAttack, a novel multi-turn attack method inspired by actor-network theory, which models a network of semantically linked actors as attack clues to generate diverse and effective attack paths toward harmful targets. ActorAttack addresses two main challenges in multi-turn attacks: (1) concealing harmful intents by creating an innocuous conversation topic about the actor, and (2) uncovering diverse attack paths towards the same harmful target by leveraging LLMs' knowledge to specify the correlated actors as various attack clues. In this way, ActorAttack outperforms existing single-turn and multi-turn attack methods across advanced aligned LLMs, even for GPT-o1. We will publish a dataset called SafeMTData, which includes multi-turn adversarial prompts and safety alignment data, generated by ActorAttack. We demonstrate that models safety-tuned using our safety dataset are more robust to multi-turn attacks. Code is available at https://github.com/renqibing/ActorAttack.
- Abstract(参考訳): 本研究では,複数クエリにわたる有害な意図を悪用する多ターンインタラクションにおいて,LLM(Large Language Models)の安全性上の脆弱性を明らかにする。
本稿では,アクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介した。
ActorAttack は,(1) アクターに関する無害な会話のトピックを作成することによって有害な意図を隠蔽すること,(2) LLM の知識を活用して,関係するアクターを様々な攻撃ヒントとして特定することによる,有害なターゲットへの多様な攻撃経路を明らかにすること,の2つの課題に対処する。
このように、ActorAttackは、GPT-o1であっても、高度に整列されたLCM間で、既存のシングルターンおよびマルチターンアタックメソッドよりも優れている。
我々は,ActorAttackが生成したマルチターン逆転プロンプトと安全アライメントデータを含むSafeMTDataというデータセットを公開する。
安全データセットを使用して安全性を調整したモデルは、マルチターン攻撃に対してより堅牢であることを示す。
コードはhttps://github.com/renqibing/ActorAttack.comで入手できる。
関連論文リスト
- Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace [15.457992715866995]
本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。
既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
論文 参考訳(メタデータ) (2024-10-17T00:13:31Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。
攻撃者数の増加は攻撃者の攻撃成功率を減少させる。
そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文 参考訳(メタデータ) (2021-10-09T13:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。