論文の概要: Jailbreak Strength and Model Similarity Predict Transferability
- arxiv url: http://arxiv.org/abs/2506.12913v1
- Date: Sun, 15 Jun 2025 17:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.102123
- Title: Jailbreak Strength and Model Similarity Predict Transferability
- Title(参考訳): 脱獄強度とモデル類似性予測可能性
- Authors: Rico Angell, Jannik Brinkmann, He He,
- Abstract要約: 脱獄は、現代のAIシステムの安全性を確保するために差し迫った脅威となる。
ジェイルブレイクがソースモデルからターゲットモデルにいつ移行するかを特定するための原則的なアプローチはありません。
- 参考スコア(独自算出の注目度): 13.134208774949135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreaks pose an imminent threat to ensuring the safety of modern AI systems by enabling users to disable safeguards and elicit unsafe information. Sometimes, jailbreaks discovered for one model incidentally transfer to another model, exposing a fundamental flaw in safeguarding. Unfortunately, there is no principled approach to identify when jailbreaks will transfer from a source model to a target model. In this work, we observe that transfer success from a source model to a target model depends on quantifiable measures of both jailbreak strength with respect to the source model and the contextual representation similarity of the two models. Furthermore, we show transferability can be increased by distilling from the target model into the source model where the only target model responses used to train the source model are those to benign prompts. We show that the distilled source model can act as a surrogate for the target model, yielding more transferable attacks against the target model. These results suggest that the success of jailbreaks is not merely due to exploitation of safety training failing to generalize out-of-distribution, but instead a consequence of a more fundamental flaw in contextual representations computed by models.
- Abstract(参考訳): ジェイルブレイクは、ユーザーが安全ガードを無効にし、安全でない情報を盗み出すことによって、現代のAIシステムの安全性を確保するために差し迫った脅威となる。
時折、あるモデルが別のモデルに偶発的に転送されることを発見し、保護の根本的な欠陥を露呈する。
残念ながら、jailbreakがソースモデルからターゲットモデルにいつ移行するかを特定するための原則的なアプローチはありません。
本研究では、ソースモデルからターゲットモデルへの転送成功は、ソースモデルに対するジェイルブレイク強度と、2つのモデルの文脈表現類似性の両方の定量化尺度に依存することを観察する。
さらに,ターゲットモデルからソースモデルへの蒸留により,ソースモデルをトレーニングするために使用するターゲットモデル応答が,良性なプロンプトである場合,トランスファービリティを向上できることを示す。
本研究では, 蒸留した原料モデルがターゲットモデルの代理として機能し, ターゲットモデルに対してより伝達可能な攻撃を与えることを示す。
これらの結果は、ジェイルブレイクの成功は単なる安全トレーニングの活用がアウト・オブ・ディストリビューションの一般化に失敗することによるものではなく、モデルによって計算された文脈表現のより根本的な欠陥の結果であることを示している。
関連論文リスト
- Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - HoneypotNet: Backdoor Attacks Against Model Extraction [24.603590328055027]
モデル抽出攻撃は、プロダクションモデルとMLプラットフォームに深刻なセキュリティ脅威をもたらす。
我々は、モデル出力を有害なものに修正する、アタック・アズ・ディフェンスと呼ばれる新しい防衛パラダイムを導入する。
HoneypotNetは、高い成功率でバックドアを代替モデルに注入することができる。
論文 参考訳(メタデータ) (2025-01-02T06:23:51Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Towards Scalable and Robust Model Versioning [30.249607205048125]
ディープラーニングモデルへのアクセスを目的とした悪意ある侵入が増えている。
異なる攻撃特性を持つモデルの複数バージョンを生成する方法を示す。
モデル学習データにパラメータ化された隠れ分布を組み込むことでこれを実現できることを示す。
論文 参考訳(メタデータ) (2024-01-17T19:55:49Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。