論文の概要: Automating Deception: Scalable Multi-Turn LLM Jailbreaks
- arxiv url: http://arxiv.org/abs/2511.19517v1
- Date: Mon, 24 Nov 2025 03:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.065378
- Title: Automating Deception: Scalable Multi-Turn LLM Jailbreaks
- Title(参考訳): 自動偽装: スケーラブルなマルチTurn LLM ジェイルブレイク
- Authors: Adarsh Kumarappan, Ananya Mujoo,
- Abstract要約: フット・イン・ザ・ドア(FITD)のような心理的原理を活用する多ターン会話攻撃は、大規模言語モデル(LLM)に永続的な脅威をもたらす。
本稿では,大規模で心理的なマルチターンジェイルブレイクデータセットを生成するための,新しい自動パイプラインを提案する。
マルチターン(歴史のない)とシングルターン(歴史のない)の条件下で,3つのLLMファミリーから7つのモデルを評価する。
- 参考スコア(独自算出の注目度): 0.7212939068975618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn conversational attacks, which leverage psychological principles like Foot-in-the-Door (FITD), where a small initial request paves the way for a more significant one, to bypass safety alignments, pose a persistent threat to Large Language Models (LLMs). Progress in defending against these attacks is hindered by a reliance on manual, hard-to-scale dataset creation. This paper introduces a novel, automated pipeline for generating large-scale, psychologically-grounded multi-turn jailbreak datasets. We systematically operationalize FITD techniques into reproducible templates, creating a benchmark of 1,500 scenarios across illegal activities and offensive content. We evaluate seven models from three major LLM families under both multi-turn (with history) and single-turn (without history) conditions. Our results reveal stark differences in contextual robustness: models in the GPT family demonstrate a significant vulnerability to conversational history, with Attack Success Rates (ASR) increasing by as much as 32 percentage points. In contrast, Google's Gemini 2.5 Flash exhibits exceptional resilience, proving nearly immune to these attacks, while Anthropic's Claude 3 Haiku shows strong but imperfect resistance. These findings highlight a critical divergence in how current safety architectures handle conversational context and underscore the need for defenses that can resist narrative-based manipulation.
- Abstract(参考訳): フット・イン・ザ・ドア(FITD)のような心理的原則を活用するマルチターンの会話攻撃では、小さな初期要求が安全性の確保を回避し、大きな言語モデル(LLM)に永続的な脅威をもたらす。
これらの攻撃に対する防御の進歩は、手動でスケールの難しいデータセット作成に依存しているために妨げられている。
本稿では,大規模で心理的なマルチターンジェイルブレイクデータセットを生成するための,新しい自動パイプラインを提案する。
我々は、FITDテクニックを再現可能なテンプレートに体系的に運用し、違法な活動と攻撃的コンテンツにわたる1500のシナリオのベンチマークを作成する。
マルチターン(歴史のない)とシングルターン(歴史のない)の条件下で,3つのLLMファミリーから7つのモデルを評価する。
GPTファミリーのモデルは会話履歴に重大な脆弱性を示し,攻撃成功率(ASR)は最大32ポイント上昇した。
これとは対照的に、GoogleのGemini 2.5 Flashは例外的なレジリエンスを示し、これらの攻撃に対してほとんど無害である一方、AnthropicのClaude 3 Haikuは強いが不完全な抵抗を示している。
これらの知見は、現在の安全アーキテクチャが会話の文脈をどのように扱うかにおいて重要な違いを示し、物語に基づく操作に抵抗できる防衛の必要性を浮き彫りにしている。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。