論文の概要: LASH: Adaptive Semantic Hybridization for Black-Box Jailbreaking of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.21362v1
- Date: Wed, 20 May 2026 16:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.779105
- Title: LASH: Adaptive Semantic Hybridization for Black-Box Jailbreaking of Large Language Models
- Title(参考訳): LASH: 大規模言語モデルのブラックボックスジェイルブレークのための適応的セマンティックハイブリダイゼーション
- Authors: Abdullah Al Nomaan Nafi, Fnu Suya, Swarup Bhunia, Prabuddha Chakraborty,
- Abstract要約: ジェイルブレイク攻撃は、アライメントされた大きな言語モデルの意図された安全行動と、敵対的なプロンプトの下でのそれらの行動の間に永続的なギャップを露呈する。
我々は、複数のベースアタックからの出力を再利用可能なシードプロンプトとして扱うブラックボックスフレームワークであるLASH(LLM Adaptive Semantic Hybridization)を導入し、ターゲット要求毎に適応的に構成する。
10のカテゴリーに100の有害なプロンプトを含むJailbreakBenchでは、6つの共通ターゲットモデルでLASHを評価し、キーワードベースの評価では平均攻撃成功率84.5%、二段階評価では74.5%と評価した。
- 参考スコア(独自算出の注目度): 8.091700349640835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak attacks expose a persistent gap between the intended safety behavior of aligned large language models and their behavior under adversarial prompting. Existing automated methods are increasingly effective but each commits to a single attack family (e.g., one refinement loop, one tree search, one mutation space, or one strategy library) and no single family dominates: the best-performing method shifts across target models and harm categories, suggesting complementary strengths that per-prompt composition could exploit. We introduce LASH (LLM Adaptive Semantic Hybridization), a black-box framework that treats outputs from multiple base attacks as reusable seed prompts and adaptively composes them for each target request. Given a seed pool, LASH searches over seed subsets and softmax-normalized mixture weights; a composition module synthesizes a single candidate prompt, and a derivative-free genetic optimizer updates the weights using black-box target feedback and a two-stage fitness function combining keyword-based refusal detection with LLM-judge scoring. On JailbreakBench, which contains 100 harmful prompts across 10 categories, we evaluate LASH on six common target models. LASH achieves an average attack success rate of 84.5% under keyword-based evaluation and 74.5% under two-stage evaluation, where responses are first filtered for refusals and then scored by an LLM judge for whether they substantively fulfill the original harmful request. LASH outperforms five state-of-the-art baselines on both metrics with only 30 mean target queries. LASH also remains competitive under three defense mechanisms and induces more success-like internal representations. These results suggest that adaptive composition across heterogeneous jailbreak strategies is a promising direction for black-box red-teaming.
- Abstract(参考訳): ジェイルブレイク攻撃は、アライメントされた大きな言語モデルの意図された安全行動と、敵対的なプロンプトの下でのそれらの行動の間に永続的なギャップを露呈する。
既存の自動メソッドはますます効果的になるが、それぞれのコミットは1つの攻撃ファミリー(例えば、1つのリファインメントループ、1つのツリー検索、1つの突然変異スペース、または1つの戦略ライブラリ)であり、単一のファミリーが支配的である。
我々は、複数のベースアタックからの出力を再利用可能なシードプロンプトとして扱うブラックボックスフレームワークであるLASH(LLM Adaptive Semantic Hybridization)を導入し、ターゲット要求毎に適応的に構成する。
種プールが与えられた場合、LASHは種子サブセットとソフトマックス正規化混合重量を探索し、合成モジュールは単一の候補プロンプトを合成し、誘導体フリーな遺伝的オプティマイザはブラックボックスターゲットフィードバックとキーワードベースの拒絶検出とLLMジャッジスコアを組み合わせた2段階の適合機能を用いて重量を更新する。
10のカテゴリに100の有害なプロンプトを含む JailbreakBench について,6つの共通ターゲットモデル上でLASHを評価した。
LASHはキーワードベースの評価で平均84.5%、二段階評価で平均74.5%の攻撃成功率を達成する。
LASHは両方のメトリクスで5つの最先端のベースラインを上回り、ターゲットクエリの平均は30である。
LASHは3つの防御機構の下で競争力を維持し、より成功的な内部表現を誘導する。
これらの結果から, 異種ジェイルブレイク戦略の適応構成がブラックボックスのレッドチームにとって有望な方向であることが示唆された。
関連論文リスト
- The Art of the Jailbreak: Formulating Jailbreak Attacks for LLM Security Beyond Binary Scoring [1.0262304700896199]
我々は, JailBreakV-28Kから125個の有害シードプロンプトに912個の合成戦略を適用し,114,000個の敵プロンプトを構築した。
私たちは、推論時に有害なシードから、流動的なjailbreakプロンプトを合成するモデルを作ります。
安全フィルタ回避率は0.29-0.51 MalであるAutoDANとAmpleGCGは24-39対40-140である。
論文 参考訳(メタデータ) (2026-05-09T23:51:18Z) - RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation [94.61617176929384]
OmniSafeBench-MMはマルチモーダル・ジェイルブレイク攻撃防御評価のための総合ツールボックスである。
13の代表的な攻撃方法と15の防衛戦略、9つの主要なリスクドメインと50のきめ細かいカテゴリにまたがる多様なデータセットを統合している。
データ、方法論、評価をオープンソースで再現可能なプラットフォームに統合することで、OmniSafeBench-MMは将来の研究のための標準化された基盤を提供する。
論文 参考訳(メタデータ) (2025-12-06T22:56:29Z) - Untargeted Jailbreak Attack [42.94437968995701]
勾配に基づく大規模言語モデル(LLM)に対するジェイルブレイク攻撃
本稿では,事前定義されたパターンを強制することなく,安全でない応答を誘発することを目的とした,最初の勾配に基づく非目標ジェイルブレイク攻撃(UJA)を提案する。
広範囲な評価により、UJAは最近の安全に配慮したLLMに対して、たった100回の最適化イテレーションで80%以上の攻撃成功率を達成できることが示されている。
論文 参考訳(メタデータ) (2025-10-03T13:38:56Z) - JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - VERA: Variational Inference Framework for Jailbreaking Large Language Models [29.57412296290215]
最先端のLDMへのAPIのみアクセスは、効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。
VERA: variational infErence fRamework for jAilbreakingを紹介する。
論文 参考訳(メタデータ) (2025-06-27T22:22:00Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。