Fugu-MT 論文翻訳(概要): Revisiting JBShield: Breaking and Rebuilding Representation-Level Jailbreak Defenses

論文の概要: Revisiting JBShield: Breaking and Rebuilding Representation-Level Jailbreak Defenses

arxiv url: http://arxiv.org/abs/2605.03095v1
Date: Mon, 04 May 2026 19:17:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 19:35:43.618432
Title: Revisiting JBShield: Breaking and Rebuilding Representation-Level Jailbreak Defenses
Title（参考訳）: JBShieldの再考: 再表現レベルジェイルブレイク防衛の破壊と再構築
Authors: Kemal Derya, Berk Sunar,
Abstract要約: 本稿では,GCGの目的を,コサイン類似性による拒絶方向抑制と有毒な概念正則化という2つの用語を組み合わせて調整するJB-GCGを提案する。 Llama-3-8Bの5つの構成で、JB-GCGは平均46.2%のASRを達成し、最強の環境では53.4%に達する。本稿では,多層リファレンス指紋上でのマハラノビス異常検出に基づく新しい防御法であるトラジェクトリ検証(RTV)を導入する。
参考スコア（独自算出の注目度）: 1.5927806443377646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Defending large language models (LLMs) against jailbreak attacks, such as Greedy Coordinate Gradient (GCG), remains a challenge, particularly under adaptive threat models where an attacker directly targets the defense mechanism. JBShield, a recent jailbreak defense with a 0% attack success rate in some settings, detects malicious prompts via two concept signals, a toxic concept and a jailbreak concept. We design JB-GCG, which modifies GCG's objective to combine two terms: refusal-direction suppression via cosine similarity between the refusal direction and hidden-state representations, and toxic-concept regularization via JBShield's own toxic concept score. Across five configurations on Llama-3-8B, JB-GCG achieves an average ASR of 46.2%, reaching up to 53.4% in the strongest setting. We further show that our attack remains effective against JBShield-M, achieving ASR up to 30.7% across evaluated settings. The attack persists across multiple JBShield recalibrations, confirming that the vulnerability is structural rather than calibration-specific. We analyze the cosine-similarity signatures of jailbreak representations and find that they occupy a distinctive region in refusal-direction fingerprint space that neither harmless nor harmful prompts inhabit. We introduce Representation Trajectory Verification (RTV), a new defense based on Mahalanobis outlier detection over multi-layer refusal-direction fingerprints. RTV attains an AUROC of 0.99 against our attack. Finally, we design and evaluate an additional adaptive attack against RTV with full white-box knowledge of the defense; the best attack achieves only 7% ASR at 13x the computational cost. Our results show that strong non-adaptive detection does not imply robustness under adaptive threat models, and that multi-layer representation consistency is a more reliable foundation for jailbreak detection than single-layer concept similarity.
Abstract（参考訳）: 大規模言語モデル(LLM)をGreedy Coordinate Gradient(GCG)のようなジェイルブレイク攻撃から守ることは、特に攻撃者が防御機構を直接ターゲットとする適応的な脅威モデルにおいて、依然として課題である。 JBShieldは、ある設定で0%の攻撃成功率を持つ最近のjailbreakディフェンスで、2つのコンセプトシグナル、有毒な概念とjailbreakコンセプトを通じて悪意のあるプロンプトを検出する。我々は,GCGの目的を,拒絶方向と隠蔽状態表現のコサイン類似性による拒絶方向抑制と,JBShield自身の有毒な概念スコアによる有毒な概念正規化という2つの用語を組み合わせるために,JB-GCGを設計する。 Llama-3-8Bの5つの構成で、JB-GCGは平均46.2%のASRを達成し、最強の環境では53.4%に達する。さらに、我々の攻撃がJBShield-Mに対して有効であることを示し、評価された設定で最大30.7%のASRを達成する。攻撃は複数のJBShield再校正を継続し、脆弱性は校正固有のものではなく構造的であることを確認した。我々はジェイルブレイク表現のコサイン類似性シグネチャを分析し、それらが無害でも有害なプロンプトも存在しない、拒絶方向指紋空間の特徴的な領域を占めることを発見した。多層リファレンス指紋に対するマハラノビス異常検出に基づく新しい防御法であるRepresentation Trajectory Verification(RTV)を導入する。 RTVは攻撃に対してAUROCが0.99に達した。最後に、防御の知識をフルに備えたRTVに対する適応攻撃を設計し評価し、最も優れた攻撃は計算コストの13倍で7%のASRしか達成できない。以上の結果から,強い非適応性検出は適応的脅威モデル下では堅牢性を示すものではなく,複数層表現の整合性は単一層概念の類似性よりもジェイルブレイク検出の信頼性が高いことが示唆された。

関連論文リスト

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文参考訳（メタデータ） (2026-04-30T13:44:01Z)
Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines [34.37967130277969]
本稿では,意味摂動空間で動作する2エージェント回避フレームワークを提案する。現代大言語モデル(LLM)ベースのシステムでは、普及率は19.95から40.34%である。パターンインフォームド・ディフェンスは回避率を65.18%まで下げる。
論文参考訳（メタデータ） (2026-04-26T00:58:36Z)
Towards Understanding the Robustness of Sparse Autoencoders [13.16745936025085]
本稿では,事前学習したSAEを推論時に変圧器残流に組み込むことについて検討する。 SAE強化モデルは、未定義のベースラインに対するジェイルブレイク成功率を最大5倍に向上させる。
論文参考訳（メタデータ） (2026-04-20T19:00:09Z)
Semantic Chameleon: Corpus-Dependent Poisoning Attacks and Defenses in RAG Systems [0.0]
Retrieval-Augmented Generation (RAG) システムは、大きな言語モデルを外部知識ソースで拡張する。特に、敵は、悪意のある文書が推論時に優先的に検索されるように、毒検索コーパスを付与することができる。本研究では,最近のRAGパイプラインに対するグラデーション誘導コーパス中毒攻撃について検討し,検索層防御の評価を行った。
論文参考訳（メタデータ） (2026-03-10T23:15:13Z)
ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models [0.0]
大規模言語モデル(LLM)の安全性に対する多くの逆評価は、単一プロンプトを評価し、バイナリパス/フェイルの結果を報告する。 ADVERSAは、ガードレールのダイナミクスを丸ごとのコンプライアンストラジェクトリとして測定する自動化されたレッドチームフレームワークである。トレーニングディストリビューションから展開された細調整された攻撃者に対して、アタッカードリフトを障害モードとして記述する。
論文参考訳（メタデータ） (2026-03-10T03:00:34Z)
TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking [52.72486831074384]
サフィックスベースのジェイルブレイク攻撃は、敵のサフィックス、すなわち短いトークンシーケンスを付加し、LLMを安全でない出力にステアリングする。提案するTrapSuffixは,推論パイプラインを変更することなく,トラップアラインな動作をベースモデルに注入する,軽量な微調整手法である。様々なサフィックスベースのジェイルブレイク設定で、TrapSuffixは平均攻撃成功率を0.01%以下に下げ、平均追跡成功率87.9%を達成する。
論文参考訳（メタデータ） (2026-02-06T11:43:56Z)
Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。 CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文参考訳（メタデータ） (2025-02-26T16:25:15Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。 GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文参考訳（メタデータ） (2024-01-30T18:56:08Z)
G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。 FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文参考訳（メタデータ） (2023-06-08T07:15:04Z)
A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。本稿では,入力空間における自己教師型対向学習機構を提案する。これは、反逆攻撃に対する強力な堅牢性を提供する。
論文参考訳（メタデータ） (2020-06-08T20:42:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。