論文の概要: Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments
- arxiv url: http://arxiv.org/abs/2511.13788v1
- Date: Sun, 16 Nov 2025 15:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.723738
- Title: Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments
- Title(参考訳): 対向アライメントにおけるスケーリングパターン:マルチLLMジェイルブレイク実験からの証拠
- Authors: Samuel Nathanson, Rebecca Williams, Cynthia Matuszek,
- Abstract要約: 大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 4.547649832854566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly operate in multi-agent and safety-critical settings, raising open questions about how their vulnerabilities scale when models interact adversarially. This study examines whether larger models can systematically jailbreak smaller ones - eliciting harmful or restricted behavior despite alignment safeguards. Using standardized adversarial tasks from JailbreakBench, we simulate over 6,000 multi-turn attacker-target exchanges across major LLM families and scales (0.6B-120B parameters), measuring both harm score and refusal behavior as indicators of adversarial potency and alignment integrity. Each interaction is evaluated through aggregated harm and refusal scores assigned by three independent LLM judges, providing a consistent, model-based measure of adversarial outcomes. Aggregating results across prompts, we find a strong and statistically significant correlation between mean harm and the logarithm of the attacker-to-target size ratio (Pearson r = 0.51, p < 0.001; Spearman rho = 0.52, p < 0.001), indicating that relative model size correlates with the likelihood and severity of harmful completions. Mean harm score variance is higher across attackers (0.18) than across targets (0.10), suggesting that attacker-side behavioral diversity contributes more to adversarial outcomes than target susceptibility. Attacker refusal frequency is strongly and negatively correlated with harm (rho = -0.93, p < 0.001), showing that attacker-side alignment mitigates harmful responses. These findings reveal that size asymmetry influences robustness and provide exploratory evidence for adversarial scaling patterns, motivating more controlled investigations into inter-model alignment and safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究では,大規模モデルでは,アライメント保護にもかかわらず有害あるいは制限された行動を引き起こすという,より小さなモデルを体系的にジェイルブレイクできるかどうかを検討する。
JailbreakBenchの標準化された敵タスクを用いて、主要なLLMファミリーとスケール(0.6B-120Bパラメータ)にわたる6000以上のマルチターン攻撃目標交換をシミュレートし、敵の有効性と整合性の指標として、害スコアと拒絶行動の両方を測定する。
それぞれの相互作用は、3人の独立したLLM審査員によって割り当てられたアグリゲートされた害と拒絶スコアによって評価され、敵の成果を一貫したモデルベースで測定する。
Pearson r = 0.51, p < 0.001; Spearman rho = 0.52, p < 0.001) は, 相対モデルのサイズが有害な完了の確率と重症度に相関していることを示す。
平均的害スコアのばらつきは攻撃者間(0.18)が攻撃者間(0.10)よりも高く、攻撃者側行動の多様性が攻撃者の感受性よりも敵の成果に寄与していることを示唆している。
攻撃者の拒絶周波数は危害と強く負の相関(rho = -0.93, p < 0.001)を持ち、攻撃側のアライメントが有害な応答を緩和することを示す。
これらの結果は、サイズ非対称性がロバスト性に影響を与え、モデル間のアライメントと安全性に関するより制御された調査を動機付け、敵のスケーリングパターンの探索的証拠を提供することを示している。
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。
我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文 参考訳(メタデータ) (2024-11-20T10:41:23Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。