論文の概要: Jailbreaking LLMs via Semantically Relevant Nested Scenarios with Targeted Toxic Knowledge
- arxiv url: http://arxiv.org/abs/2510.01223v1
- Date: Mon, 22 Sep 2025 12:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.852586
- Title: Jailbreaking LLMs via Semantically Relevant Nested Scenarios with Targeted Toxic Knowledge
- Title(参考訳): 意味論的に関連性のあるネストシナリオによるLLMの脱獄
- Authors: Hui Dou, Ning Xu, Yiwen Zhang, Kaibin Wang,
- Abstract要約: ネストシナリオ戦略は、様々な手法で採用され、大きな可能性を秘めている。
LLMのアライメントを調べる適応的で自動化されたフレームワークであるRTS-Attackを提案する。
RTS-Attackは、ベースラインと比較して効率と普遍性の両方において優れた性能を示す。
- 参考スコア(独自算出の注目度): 10.048153313404706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks. However, they remain exposed to jailbreak attacks, eliciting harmful responses. The nested scenario strategy has been increasingly adopted across various methods, demonstrating immense potential. Nevertheless, these methods are easily detectable due to their prominent malicious intentions. In this work, we are the first to find and systematically verify that LLMs' alignment defenses are not sensitive to nested scenarios, where these scenarios are highly semantically relevant to the queries and incorporate targeted toxic knowledge. This is a crucial yet insufficiently explored direction. Based on this, we propose RTS-Attack (Semantically Relevant Nested Scenarios with Targeted Toxic Knowledge), an adaptive and automated framework to examine LLMs' alignment. By building scenarios highly relevant to the queries and integrating targeted toxic knowledge, RTS-Attack bypasses the alignment defenses of LLMs. Moreover, the jailbreak prompts generated by RTS-Attack are free from harmful queries, leading to outstanding concealment. Extensive experiments demonstrate that RTS-Attack exhibits superior performance in both efficiency and universality compared to the baselines across diverse advanced LLMs, including GPT-4o, Llama3-70b, and Gemini-pro. Our complete code is available in the supplementary material. WARNING: THIS PAPER CONTAINS POTENTIALLY HARMFUL CONTENT.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
しかし、彼らは依然として脱獄攻撃に晒され、有害な反応を招いた。
ネストシナリオ戦略は様々な手法で採用され、大きな可能性を示している。
しかし、これらの手法は、悪質な意図が目立つため、容易に検出できる。
本研究は,LLMのアライメントディフェンスがネストしたシナリオに敏感でないことを初めて発見し,体系的に検証するものである。
これは極めて重要だが、十分に調査されていない方向である。
そこで我々はRTS-Attack(Semantically Relevant Nested Scenarios with Targeted Toxic Knowledge)を提案する。
クエリに高い関連性を持つシナリオを構築し、ターゲットとなる有毒な知識を統合することで、RTS-AttackはLLMのアライメントディフェンスをバイパスする。
さらに、RTS-Attackによって生成されるジェイルブレイクプロンプトは、有害なクエリを含まないため、顕著な隠蔽につながる。
大規模な実験により、RTS-AttackはGPT-4o、Llama3-70b、Gemini-proを含む様々な先進LLMのベースラインと比較して効率と普遍性の両方で優れた性能を示すことが示された。
私たちの完全なコードは補足資料で利用可能です。
警告:この紙には、潜在的にファームフルなコンテンツが含まれています。
関連論文リスト
- Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。
敵同士が連携して、徐々に機密データを抽出するように仕向ける。
企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-07-21T13:38:12Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language [44.27350994698781]
安全アライメントの一般化可能性を検討するための新しい枠組みを提案する。
LLMを知識データベースとして扱うことにより、自然言語の悪意あるクエリを構造化された非自然なクエリ言語に変換する。
メインストリームのLSMについて広範な実験を行い、QueryAttackが高い攻撃成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-02-13T19:13:03Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Hijacking Large Language Models via Adversarial In-Context Learning [10.416972293173993]
In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。
本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。