論文の概要: Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency
- arxiv url: http://arxiv.org/abs/2510.21189v1
- Date: Fri, 24 Oct 2025 06:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.386293
- Title: Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency
- Title(参考訳): 隣接語, 発散詞:タスク並行性による大規模言語モデルのジェイルブレーク
- Authors: Yukun Jiang, Mingjie Li, Michael Backes, Yang Zhang,
- Abstract要約: 既存のjailbreak攻撃は主にシーケンシャルロジックに従っており、大きな言語モデル(LLM)は各タスクをひとつずつ理解し、答える。
私たちは、$textttJAIL-CON$という、タスク$underlinetextCON$currencyを介してLLMを壊す反復攻撃フレームワークを紹介します。
ガードレールを防御として適用した場合、以前の攻撃で生成されたシーケンシャルな回答と比較して、@textttJAIL-CON$の同時回答はよりステルス性が高い。
- 参考スコア(独自算出の注目度): 22.04568330005493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite their superior performance on a wide range of domains, large language models (LLMs) remain vulnerable to misuse for generating harmful content, a risk that has been further amplified by various jailbreak attacks. Existing jailbreak attacks mainly follow sequential logic, where LLMs understand and answer each given task one by one. However, concurrency, a natural extension of the sequential scenario, has been largely overlooked. In this work, we first propose a word-level method to enable task concurrency in LLMs, where adjacent words encode divergent intents. Although LLMs maintain strong utility in answering concurrent tasks, which is demonstrated by our evaluations on mathematical and general question-answering benchmarks, we notably observe that combining a harmful task with a benign one significantly reduces the probability of it being filtered by the guardrail, showing the potential risks associated with concurrency in LLMs. Based on these findings, we introduce $\texttt{JAIL-CON}$, an iterative attack framework that $\underline{\text{JAIL}}$breaks LLMs via task $\underline{\text{CON}}$currency. Experiments on widely-used LLMs demonstrate the strong jailbreak capabilities of $\texttt{JAIL-CON}$ compared to existing attacks. Furthermore, when the guardrail is applied as a defense, compared to the sequential answers generated by previous attacks, the concurrent answers in our $\texttt{JAIL-CON}$ exhibit greater stealthiness and are less detectable by the guardrail, highlighting the unique feature of task concurrency in jailbreaking LLMs.
- Abstract(参考訳): 幅広い領域での優れたパフォーマンスにもかかわらず、大きな言語モデル(LLM)は有害なコンテンツを生成する誤用に対して脆弱なままであり、これは様々なジェイルブレイク攻撃によってさらに増幅されたリスクである。
既存のjailbreak攻撃は主にシーケンシャルロジックに従っており、LLMはそれぞれのタスクを1つずつ理解し、答える。
しかし、シーケンシャルシナリオの自然な拡張である並行性はほとんど見過ごされている。
本研究ではまず,LLMにおけるタスク並行化を実現するための単語レベル手法を提案する。
LLMは並列処理に強力な効用を保ち、数学的および一般的な質問応答ベンチマークで評価した結果、有害なタスクと良性なタスクを組み合わせることでガードレールによってフィルタリングされる確率が大幅に減少し、LLMの並行処理に伴う潜在的なリスクが示されることが明らかとなった。
これらの結果に基づいて、$\underline{\text{JAIL}}$breaks LLMs via task $\underline{\text{CON}}$currencyという反復攻撃フレームワークである$\textt{JAIL-CON}$を紹介します。
広く使われているLLMの実験は、既存の攻撃と比較して$\texttt{JAIL-CON}$の強いジェイルブレイク能力を示している。
さらに、ガードレールを防御として適用した場合、以前の攻撃で生成されたシーケンシャルな回答と比較して、 $\texttt{JAIL-CON}$ の同時回答はよりステルス性が高く、ガードレールによって検出されにくく、ジェイルブレイクする LLM におけるタスク並行性のユニークな特徴を強調します。
関連論文リスト
- Multi-Turn Jailbreaking of Aligned LLMs via Lexical Anchor Tree Search [42.24704798164362]
本稿では,Lexical Anchor Tree Search()を提案する。
AdvBench と HarmBench の評価は、LATS が最新の GPT、Claude、Llama モデルで 97-100% ASR を達成することを示した。
論文 参考訳(メタデータ) (2026-01-06T02:58:22Z) - Dagger Behind Smile: Fool LLMs with a Happy Ending Story [6.850563535528862]
ハッピーエンドアタック(Happy Ending Attack)は、シナリオテンプレートで悪意のあるリクエストをラップし、LDMをすぐにまたはフォローアップされた悪意のあるリクエストでジェイルブレイクさせる。
我々のHEAは、GPT-4o、Llama3-70b、Gemini-proを含む最先端のLLMのジェイルブレイクに成功し、平均して88.79%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-01-19T13:39:51Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。
問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。
大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T11:08:28Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。