論文の概要: Jailbreak Transferability Emerges from Shared Representations
- arxiv url: http://arxiv.org/abs/2506.12913v2
- Date: Tue, 28 Oct 2025 20:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:43.682465
- Title: Jailbreak Transferability Emerges from Shared Representations
- Title(参考訳): 共有表現によるジェイルブレイク転送可能性の創出
- Authors: Rico Angell, Jannik Brinkmann, He He,
- Abstract要約: ジェイルブレイクの伝達性は、あるモデルに対する敵の攻撃が他のモデルから有害な反応を誘発する驚くべき現象である。
移譲性は、偶発的欠陥ではなく、共有表現から生じる証拠を示す。
そこで本研究では,異なるタイプのジェイルブレイクにまたがる系統的伝達可能性パターンを明らかにした。
- 参考スコア(独自算出の注目度): 17.163034538116076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak transferability is the surprising phenomenon when an adversarial attack compromising one model also elicits harmful responses from other models. Despite widespread demonstrations, there is little consensus on why transfer is possible: is it a quirk of safety training, an artifact of model families, or a more fundamental property of representation learning? We present evidence that transferability emerges from shared representations rather than incidental flaws. Across 20 open-weight models and 33 jailbreak attacks, we find two factors that systematically shape transfer: (1) representational similarity under benign prompts, and (2) the strength of the jailbreak on the source model. To move beyond correlation, we show that deliberately increasing similarity through benign only distillation causally increases transfer. Our qualitative analyses reveal systematic transferability patterns across different types of jailbreaks. For example, persona-style jailbreaks transfer far more often than cipher-based prompts, consistent with the idea that natural-language attacks exploit models' shared representation space, whereas cipher-based attacks rely on idiosyncratic quirks that do not generalize. Together, these results reframe jailbreak transfer as a consequence of representation alignment rather than a fragile byproduct of safety training.
- Abstract(参考訳): ジェイルブレイクの伝達性は、あるモデルに対する敵の攻撃が他のモデルから有害な反応を誘発する驚くべき現象である。
安全なトレーニング、モデルファミリーのアーティファクト、あるいは表現学習のより基本的な性質など、トランスファーが可能である理由についてはほとんど合意が得られていない。
移譲性は、偶発的欠陥ではなく、共有表現から生じる証拠を示す。
20個のオープンウェイトモデルと33個のジェイルブレイク攻撃において,(1)良性プロンプト下での表現的類似性,(2)ソースモデルにおけるジェイルブレイクの強さの2つの要因が系統的に伝達されることがわかった。
相関性を超えて, 良性のみの蒸留による類似度の増加は輸送を因果的に増加させることを示す。
質的分析により,異なるタイプのジェイルブレイクにまたがる系統的伝達可能性パターンが明らかになった。
例えば、ペルソナスタイルのジェイルブレイクは暗号ベースのプロンプトよりもはるかに頻繁に転送され、自然言語による攻撃はモデルの共有表現空間を悪用するという考えと一致している。
これらの結果は、安全訓練の脆弱な副産物ではなく、アライメントの結果としてジェイルブレイク転送を再構成する。
関連論文リスト
- Holmes: Towards Effective and Harmless Model Ownership Verification to Personalized Large Vision Models via Decoupling Common Features [54.63343151319368]
本稿では、類似の共通特徴を分離し、パーソナライズされたモデルに対する無害モデルオーナシップ検証手法を提案する。
最初の段階では、データセット固有の機能を中断しながら、犠牲者モデルの共通の特徴を保持するシャドウモデルを作成します。
その後、メタ分類器が訓練され、被害者のデータセット固有の特徴を含む不審なモデルを決定することで、盗まれたモデルを特定する。
論文 参考訳(メタデータ) (2025-06-24T15:40:11Z) - Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - HoneypotNet: Backdoor Attacks Against Model Extraction [24.603590328055027]
モデル抽出攻撃は、プロダクションモデルとMLプラットフォームに深刻なセキュリティ脅威をもたらす。
我々は、モデル出力を有害なものに修正する、アタック・アズ・ディフェンスと呼ばれる新しい防衛パラダイムを導入する。
HoneypotNetは、高い成功率でバックドアを代替モデルに注入することができる。
論文 参考訳(メタデータ) (2025-01-02T06:23:51Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Towards Scalable and Robust Model Versioning [30.249607205048125]
ディープラーニングモデルへのアクセスを目的とした悪意ある侵入が増えている。
異なる攻撃特性を持つモデルの複数バージョンを生成する方法を示す。
モデル学習データにパラメータ化された隠れ分布を組み込むことでこれを実現できることを示す。
論文 参考訳(メタデータ) (2024-01-17T19:55:49Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。