論文の概要: Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments
- arxiv url: http://arxiv.org/abs/2511.13788v1
- Date: Sun, 16 Nov 2025 15:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.723738
- Title: Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments
- Title(参考訳): 対向アライメントにおけるスケーリングパターン:マルチLLMジェイルブレイク実験からの証拠
- Authors: Samuel Nathanson, Rebecca Williams, Cynthia Matuszek,
- Abstract要約: 大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 4.547649832854566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly operate in multi-agent and safety-critical settings, raising open questions about how their vulnerabilities scale when models interact adversarially. This study examines whether larger models can systematically jailbreak smaller ones - eliciting harmful or restricted behavior despite alignment safeguards. Using standardized adversarial tasks from JailbreakBench, we simulate over 6,000 multi-turn attacker-target exchanges across major LLM families and scales (0.6B-120B parameters), measuring both harm score and refusal behavior as indicators of adversarial potency and alignment integrity. Each interaction is evaluated through aggregated harm and refusal scores assigned by three independent LLM judges, providing a consistent, model-based measure of adversarial outcomes. Aggregating results across prompts, we find a strong and statistically significant correlation between mean harm and the logarithm of the attacker-to-target size ratio (Pearson r = 0.51, p < 0.001; Spearman rho = 0.52, p < 0.001), indicating that relative model size correlates with the likelihood and severity of harmful completions. Mean harm score variance is higher across attackers (0.18) than across targets (0.10), suggesting that attacker-side behavioral diversity contributes more to adversarial outcomes than target susceptibility. Attacker refusal frequency is strongly and negatively correlated with harm (rho = -0.93, p < 0.001), showing that attacker-side alignment mitigates harmful responses. These findings reveal that size asymmetry influences robustness and provide exploratory evidence for adversarial scaling patterns, motivating more controlled investigations into inter-model alignment and safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究では,大規模モデルでは,アライメント保護にもかかわらず有害あるいは制限された行動を引き起こすという,より小さなモデルを体系的にジェイルブレイクできるかどうかを検討する。
JailbreakBenchの標準化された敵タスクを用いて、主要なLLMファミリーとスケール(0.6B-120Bパラメータ)にわたる6000以上のマルチターン攻撃目標交換をシミュレートし、敵の有効性と整合性の指標として、害スコアと拒絶行動の両方を測定する。
それぞれの相互作用は、3人の独立したLLM審査員によって割り当てられたアグリゲートされた害と拒絶スコアによって評価され、敵の成果を一貫したモデルベースで測定する。
Pearson r = 0.51, p < 0.001; Spearman rho = 0.52, p < 0.001) は, 相対モデルのサイズが有害な完了の確率と重症度に相関していることを示す。
平均的害スコアのばらつきは攻撃者間(0.18)が攻撃者間(0.10)よりも高く、攻撃者側行動の多様性が攻撃者の感受性よりも敵の成果に寄与していることを示唆している。
攻撃者の拒絶周波数は危害と強く負の相関(rho = -0.93, p < 0.001)を持ち、攻撃側のアライメントが有害な応答を緩和することを示す。
これらの結果は、サイズ非対称性がロバスト性に影響を与え、モデル間のアライメントと安全性に関するより制御された調査を動機付け、敵のスケーリングパターンの探索的証拠を提供することを示している。
関連論文リスト
- SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models [0.5599792629509229]
本稿では,リスクプロファイルを用いた社会的ハーム分析について紹介する。
同様の平均リスクを持つモデルでは、尾の露出とボラティリティの2倍以上の違いが示される。
論文 参考訳(メタデータ) (2026-01-29T03:54:25Z) - How Worst-Case Are Adversarial Attacks? Linking Adversarial and Perturbation Robustness [4.60092781176058]
アドリア攻撃はモデル脆弱性の特定に広く用いられているが、ランダムな摂動に対する堅牢性のためのプロキシとしての有効性については議論が続いている。
逆の例が、同じ大きさの摂動下での誤予測リスクを代表的に見積もっているかどうかを問う。
本研究では, 統計的に均一な雑音に近づいた体制において, 脆弱性を調査するための攻撃戦略を提案することにより, この接続の限界について検討する。
論文 参考訳(メタデータ) (2026-01-20T22:24:47Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。
我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文 参考訳(メタデータ) (2024-11-20T10:41:23Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。