論文の概要: Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search
- arxiv url: http://arxiv.org/abs/2503.10619v2
- Date: Sun, 16 Mar 2025 20:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:52.636168
- Title: Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search
- Title(参考訳): 包囲戦:木探索による大規模言語モデルの自律的マルチターン脱獄
- Authors: Andy Zhou,
- Abstract要約: 木探索の観点から,Large Language Model (LLM) の安全性の段階的侵食をモデル化する多ターン対向フレームワークであるGiegeを紹介した。
GPT-3.5-turboで100%成功率,GPT-4で97%を達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce Siege, a multi-turn adversarial framework that models the gradual erosion of Large Language Model (LLM) safety through a tree search perspective. Unlike single-turn jailbreaks that rely on one meticulously engineered prompt, Siege expands the conversation at each turn in a breadth-first fashion, branching out multiple adversarial prompts that exploit partial compliance from previous responses. By tracking these incremental policy leaks and re-injecting them into subsequent queries, Siege reveals how minor concessions can accumulate into fully disallowed outputs. Evaluations on the JailbreakBench dataset show that Siege achieves a 100% success rate on GPT-3.5-turbo and 97% on GPT-4 in a single multi-turn run, using fewer queries than baselines such as Crescendo or GOAT. This tree search methodology offers an in-depth view of how model safeguards degrade over successive dialogue turns, underscoring the urgency of robust multi-turn testing procedures for language models.
- Abstract(参考訳): 木探索の観点から,Large Language Model (LLM) の安全性の段階的侵食をモデル化する多ターン対向フレームワークであるGiegeを紹介した。
厳密に設計されたプロンプトに依存するシングルターンのジェイルブレイクとは異なり、ジークは各ターンでの会話を広義に拡張し、以前の応答からの部分的コンプライアンスを利用する複数の敵のプロンプトを分岐する。
これらの漸進的なポリシーリークを追跡し、その後のクエリに再注入することで、Siege氏は、小さな譲歩が完全に禁止されたアウトプットにどのように蓄積できるかを明らかにした。
JailbreakBenchデータセットの評価では、CrescendoやGOATといったベースラインよりもクエリが少なく、GPT-3.5-turboで100%成功率、GPT-4で97%を達成している。
この木探索手法は、言語モデルの堅牢なマルチターンテスト手順の緊急さを強調し、逐次対話よりもモデルセーフガードがいかに劣化するかを詳細に把握する。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - "Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks [4.586907225774023]
本研究の目的は, GPT-4o, Grok-2 Beta, Llama 3.1 (405B), Gemini 1.5, Claude 3.5 Sonnetのガードレールの有効性を評価することである。
同種のマルチステッププロンプトを設計して倫理的攻撃を行い、「企業中間管理者が昇進を競う」シナリオをシミュレートする。
以上の結果から, 上記LLMのガードレールはバイパスされ, 口頭攻撃の内容が生成されることがわかった。
論文 参考訳(メタデータ) (2024-11-23T09:32:44Z) - Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack [5.912639903214644]
我々は、Crescendoと呼ばれる新しいジェイルブレイク攻撃を導入する。
Crescendoは単純なマルチターンジェイルブレイクで、一見見栄えのよい方法でモデルと対話する。
我々はChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b, LlaMA-3 70b Chat, Anthropic Chatなど,様々な公共システム上でのCrescendoの評価を行った。
論文 参考訳(メタデータ) (2024-04-02T10:45:49Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。