論文の概要: Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs
- arxiv url: http://arxiv.org/abs/2508.10029v1
- Date: Fri, 08 Aug 2025 17:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.027333
- Title: Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs
- Title(参考訳): 核融合のジェイルブレイク:無害で無害な表現で無防備なLLM出力を消し去る
- Authors: Wenpeng Xing, Mohan Li, Chunqiang Hu, Haitao XuNingyu Zhang, Bo Lin, Meng Han,
- Abstract要約: 本稿では、有害なクエリペアから隠れた状態を補間し、禁止された応答を誘発する表現ベースの攻撃であるLatent Fusion Jailbreak(LFJ)を紹介する。
AdvBenchやMaliciousInstructといったベンチマークによるVicunaやLLaMA-2などのモデルの評価では、平均攻撃成功率(ASR)は94.01%となり、既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 16.25742791802536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate impressive capabilities in various language tasks but are susceptible to jailbreak attacks that circumvent their safety alignments. This paper introduces Latent Fusion Jailbreak (LFJ), a representation-based attack that interpolates hidden states from harmful and benign query pairs to elicit prohibited responses. LFJ begins by selecting query pairs with high thematic and syntactic similarity, then performs gradient-guided interpolation at influential layers and tokens, followed by optimization to balance attack success, output fluency, and computational efficiency. Evaluations on models such as Vicuna and LLaMA-2 across benchmarks like AdvBench and MaliciousInstruct yield an average attack success rate (ASR) of 94.01%, outperforming existing methods. To mitigate LFJ, we propose an adversarial training defense that fine-tunes models on interpolated examples, reducing ASR by over 80% without degrading performance on benign inputs. Ablation studies validate the importance of query pair selection, hidden state interpolation components, and optimization strategies in LFJ's effectiveness.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な言語タスクにおいて印象的な能力を示すが、安全アライメントを回避するジェイルブレイク攻撃の影響を受けやすい。
本稿では、有害なクエリペアから隠れた状態を補間し、禁止された応答を誘発する表現ベースの攻撃であるLatent Fusion Jailbreak(LFJ)を紹介する。
LFJはまず、高いテーマと構文的類似性を持つクエリペアを選択し、その後、影響のあるレイヤとトークンで勾配誘導補間を行い、続いて攻撃成功と出力流速と計算効率のバランスをとる最適化を行う。
AdvBenchやMaliciousInstructといったベンチマークによるVicunaやLLaMA-2などのモデルの評価では、平均攻撃成功率(ASR)は94.01%となり、既存の手法よりも優れていた。
LFJ を緩和するために,補間例を微調整し,良性入力の性能を低下させることなく,ASR を80%以上削減する対向的トレーニングディフェンスを提案する。
アブレーション研究は、クエリペアの選択、隠れ状態補間コンポーネント、およびLFJの有効性における最適化戦略の重要性を検証する。
関連論文リスト
- Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - MIST: Jailbreaking Black-box Large Language Models via Iterative Semantic Tuning [6.279806727611712]
そこで本研究では,MISTと命名されたIterative Semantic Tuningを用いて,大規模言語モデルのジェイルブレイクを効果的に行う手法を提案する。
MISTは、攻撃者が有害なコンテンツを誘導しながら、元の意味的意図を保存するプロンプトを反復的に洗練することを可能にする。
その結果、MISTは競合攻撃の成功率、クエリ数が少ないこと、公平な転送性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-20T07:16:47Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Smoothed Embeddings for Robust Language Models [11.97873981355746]
大規模言語モデル(LLM)は、アライメントを抑え、有害な出力を誘導するジェイルブレイク攻撃に対して脆弱である。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTAディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2025-01-27T20:57:26Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。