論文の概要: Foot-In-The-Door: A Multi-turn Jailbreak for LLMs
- arxiv url: http://arxiv.org/abs/2502.19820v1
- Date: Thu, 27 Feb 2025 06:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:46.822011
- Title: Foot-In-The-Door: A Multi-turn Jailbreak for LLMs
- Title(参考訳): フット・イン・ザ・ドア:LDMのマルチターンジェイルブレイク
- Authors: Zixuan Weng, Xiaolong Jin, Jinyuan Jia, Xiangyu Zhang,
- Abstract要約: 主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理的なフット・イン・ザ・ドアの原則に触発されて,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
- 参考スコア(独自算出の注目度): 40.958137601841734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring AI safety is crucial as large language models become increasingly integrated into real-world applications. A key challenge is jailbreak, where adversarial prompts bypass built-in safeguards to elicit harmful disallowed outputs. Inspired by psychological foot-in-the-door principles, we introduce FITD,a novel multi-turn jailbreak method that leverages the phenomenon where minor initial commitments lower resistance to more significant or more unethical transgressions.Our approach progressively escalates the malicious intent of user queries through intermediate bridge prompts and aligns the model's response by itself to induce toxic responses. Extensive experimental results on two jailbreak benchmarks demonstrate that FITD achieves an average attack success rate of 94% across seven widely used models, outperforming existing state-of-the-art methods. Additionally, we provide an in-depth analysis of LLM self-corruption, highlighting vulnerabilities in current alignment strategies and emphasizing the risks inherent in multi-turn interactions.The code is available at https://github.com/Jinxiaolong1129/Foot-in-the-door-Jailbreak .
- Abstract(参考訳): 大規模言語モデルが現実のアプリケーションにますます統合されるにつれて、AIの安全性の確保が不可欠である。
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に触発されたFITDは、より重要あるいは非倫理的なトランスグレスに対する小さな初期コミットメントが抵抗を低くする現象を活用する新しいマルチターンジェイルブレイク手法であり、我々のアプローチは、中間ブリッジプロンプトを通じてユーザクエリの悪意ある意図を徐々にエスカレートし、モデルの応答をそれ自体で調整し、有害な応答を誘導する。
2つのjailbreakベンチマークによる大規模な実験結果から、FITDは7つの広く使用されているモデルに対して平均94%の攻撃成功率を達成し、既存の最先端の手法よりも優れていることが示された。
さらに、LLMの自己破壊を詳細に分析し、現在のアライメント戦略の脆弱性を強調し、マルチターンインタラクションに固有のリスクを強調します。
関連論文リスト
- A Representation Engineering Perspective on the Effectiveness of Multi-Turn Jailbreaks [3.8246557700763715]
中間モデル表現のレベルにおけるCrescendoマルチターンジェイルブレイクの有効性について検討する。
本研究は, シングルターンジェイルブレイク防御が多ターン攻撃に対して一般的に効果がない理由を説明するのに有効である。
論文 参考訳(メタデータ) (2025-06-29T23:28:55Z) - Multi-turn Jailbreaking via Global Refinement and Active Fabrication [29.84573206944952]
本稿では,各インタラクションにおいてジェイルブレーキングパスを世界規模で洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
実験により,既存の単ターン・多ターンジェイルブレイク技術と比較して,本手法の優れた性能を示した。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [35.7801861576917]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。
ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。
我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Poisoned LangChain: Jailbreak LLMs by LangChain [9.658883589561915]
本稿では,間接的ジェイルブレイクの概念を提案し,LangChain経由でRetrieval-Augmented Generationを実現する。
我々はこの手法を,ジェイルブレイク問題の3つの主要なカテゴリにわたる6つの大言語モデルで検証した。
論文 参考訳(メタデータ) (2024-06-26T07:21:02Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。