論文の概要: Jailbreak susceptibility prediction and mitigation via the behavioral geometry of models
- arxiv url: http://arxiv.org/abs/2605.26409v1
- Date: Tue, 26 May 2026 00:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.514288
- Title: Jailbreak susceptibility prediction and mitigation via the behavioral geometry of models
- Title(参考訳): モデル行動幾何学によるジェイルブレイク感受性予測と緩和
- Authors: Hayden Helm, Xiaodong Liu, Weiwei Yang,
- Abstract要約: 我々は、効率的な感受性予測と効果的な防御伝達をサポートするモデルの集団の行動幾何学を定式化する。
フレームワークを24のプロバイダにまたがる79のモデルに適用し、100のシステム構成を単一ベースモデルに適用する。
動作幾何学を用いて、最適化された防御を同じプロデューサの割り当てから転送するモデルを選択する。
- 参考スコア(独自算出の注目度): 6.652516334964315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating and mitigating a generative system's susceptibility to jailbreak attacks is critical to its safe deployment. Given the number of deployable systems, full per-configuration evaluation and optimization is impractical. In this paper, we formalize the behavioral geometry of a population of models that, by leveraging previously evaluated and defended models, supports both efficient susceptibility prediction and effective defense transfer across a population. We apply the framework to 79 models spanning 24 providers and to 100 system configurations of a single base model. Simple methods that use the behavioral geometry reach an AUPRC of $0.94$ for susceptibility detection with $\approx98\%$ fewer probes relative to a full evaluation. Using the behavioral geometry to select which model to transfer an optimized defense from outperforms same-provider assignment ($+2\%$, $p = 0.03$) at no additional probe cost, with a set of three models sufficient to cover the population. Results are robust to hyperparameter selection and judge.
- Abstract(参考訳): ジェネレーティブシステムのジェイルブレイク攻撃に対する感受性の評価と緩和は、その安全な配備に不可欠である。
デプロイ可能なシステムの数を考えると、構成毎の評価と最適化は現実的ではない。
本稿では,事前評価されたモデルと防御されたモデルを利用して,効率的な感受性予測と,人口間の効果的な防御伝達をサポートするモデルの集団の行動幾何学を定式化する。
フレームワークを24のプロバイダにまたがる79のモデルに適用し、100のシステム構成を単一ベースモデルに適用する。
振舞い幾何を用いる単純な方法は、完全な評価に対して$\approx98\%の少ないプローブで、感受性検出のために$0.94$のAUPRCに達する。
行動幾何学を用いて、最適化された防御を同じプロデューサの割り当て(+2\%$, $p = 0.03$)から、追加のプローブコストなしで転送するモデルを選択する。
結果はハイパーパラメータの選択と判断に堅牢である。
関連論文リスト
- Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines [34.37967130277969]
本稿では,意味摂動空間で動作する2エージェント回避フレームワークを提案する。
現代大言語モデル(LLM)ベースのシステムでは、普及率は19.95から40.34%である。
パターンインフォームド・ディフェンスは回避率を65.18%まで下げる。
論文 参考訳(メタデータ) (2026-04-26T00:58:36Z) - CAMEL: Confidence-Gated Reflection for Reward Modeling [26.908515245229747]
CAMELは、まず軽量なシングルトークン選択決定を行う信頼度の高いリフレクションフレームワークである。
提案手法は,プレフィックス強化による強化学習を通じて学習し,そのモデルに様々な初期判定を施し,真の修正を促す。
実証的に、CAMELは82.9%の平均精度で広く使用されている3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-24T08:20:08Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Pareto-Secure Machine Learning (PSML): Fingerprinting and Securing
Inference Serving Systems [0.0]
既存のブラックボックス攻撃では、推論要求を行うために単一のモデルを繰り返し選択できると仮定している。
そこで本研究では,攻撃者が希望するモデルを連続的にトリガーできるように,クエリ効率のよいフィンガープリントアルゴリズムを提案する。
我々は,特定の性能指標にノイズを加えることで,指紋認証を阻止するノイズベースの防御機構を用いて,提案攻撃を阻止する。
論文 参考訳(メタデータ) (2023-07-03T18:53:47Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。
ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。
本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文 参考訳(メタデータ) (2022-02-03T00:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。