論文の概要: Many-Turn Jailbreaking
- arxiv url: http://arxiv.org/abs/2508.06755v1
- Date: Sat, 09 Aug 2025 00:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.5332
- Title: Many-Turn Jailbreaking
- Title(参考訳): many‐turnjailbreaking
- Authors: Xianjun Yang, Liqiang Xiao, Shiyang Li, Faisal Ladhak, Hyokun Yun, Linda Ruth Petzold, Yi Xu, William Yang Wang,
- Abstract要約: そこで本研究では,JailbreakされたLLMを1つ以上のターゲットクエリで連続的にテストするマルチターンジェイルブレイクについて検討する。
我々は、一連のオープンソースモデルとクローズドソースモデルでこの設定をベンチマークするために、Multi-Turn Jailbreak Benchmark (MTJ-Bench)を構築した。
- 参考スコア(独自算出の注目度): 65.04921693379944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current jailbreaking work on large language models (LLMs) aims to elicit unsafe outputs from given prompts. However, it only focuses on single-turn jailbreaking targeting one specific query. On the contrary, the advanced LLMs are designed to handle extremely long contexts and can thus conduct multi-turn conversations. So, we propose exploring multi-turn jailbreaking, in which the jailbroken LLMs are continuously tested on more than the first-turn conversation or a single target query. This is an even more serious threat because 1) it is common for users to continue asking relevant follow-up questions to clarify certain jailbroken details, and 2) it is also possible that the initial round of jailbreaking causes the LLMs to respond to additional irrelevant questions consistently. As the first step (First draft done at June 2024) in exploring multi-turn jailbreaking, we construct a Multi-Turn Jailbreak Benchmark (MTJ-Bench) for benchmarking this setting on a series of open- and closed-source models and provide novel insights into this new safety threat. By revealing this new vulnerability, we aim to call for community efforts to build safer LLMs and pave the way for a more in-depth understanding of jailbreaking LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)における現在のジェイルブレイク作業は、与えられたプロンプトから安全でない出力を引き出すことを目的としている。
しかし、特定のクエリをターゲットとしたシングルターンのジェイルブレイクのみに焦点を当てている。
逆に、高度なLLMは、非常に長いコンテキストを扱うように設計されており、それによってマルチターン会話を行うことができる。
そこで本研究では,ジェイルブレイクしたLLMを,第1ターン会話や単一ターゲットクエリ以上の連続的なテストを行うマルチターンジェイルブレイクについて検討する。
これはさらに深刻な脅威です。
1)特定のジェイルブレイクの詳細を明らかにするために、利用者が引き続き関連するフォローアップ質問を行うことが一般的である。
2) 早期の脱獄は, LLM が無関係な質問に一貫した応答を誘導する可能性も考えられる。
マルチターンジェイルブレイクを探索する最初のステップ(2024年6月の最初のドラフト)として、この設定を一連のオープンソースモデルとクローズドソースモデルでベンチマークするためのマルチターンジェイルブレイクベンチマーク(MTJ-Bench)を構築し、この新しい安全脅威に関する新たな洞察を提供する。
この新しい脆弱性を明らかにすることで、より安全なLLMの構築と、より深いジェイルブレイクするLLMの理解の道を開くためのコミュニティの努力を呼びかけます。
関連論文リスト
- Involuntary Jailbreak [11.078631999104907]
我々は,大規模言語モデル (LLM) に新たな脆弱性を提示し,これをtextbfinvoluntary jailbreak と呼ぶ。
既存のジェイルブレイク攻撃とは異なり、この弱点は爆弾をテキスト化するための命令を生成するなど、特定の攻撃目標を含まない。
我々はLSMに対して、通常拒否されるであろういくつかの質問とそれに対応する詳細な応答を生成するよう指示する。
注目すべきは、この単純なプロンプト戦略は、Claude Opus 4.1、Grok 4、Gemini 2.5 Pro、GPT 4.1を含む主要なLCMの大多数を継続的にジェイルブレイクさせることである。
論文 参考訳(メタデータ) (2025-08-18T10:38:30Z) - Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.49886313949869]
大規模言語モデル(LLM)を攻撃するための移動可能なブラックボックスジェイルブレイク法を提案する。
この書き換えアプローチは学習可能で、転送可能であることが分かりました。
大規模な実験と分析により、R2Jの有効性が示された。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Efficient Indirect LLM Jailbreak via Multimodal-LLM Jailbreak [62.56901628534646]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。
我々の手法は、効率と有効性の両方の観点から、現在の最先端のジェイルブレイク手法を超越している。
論文 参考訳(メタデータ) (2024-05-30T12:50:32Z) - GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models [34.358829304155144]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。
我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2024-02-05T18:54:43Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。