論文の概要: ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.10068v1
- Date: Tue, 10 Mar 2026 03:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.609664
- Title: ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models
- Title(参考訳): ADVERSA:大規模言語モデルにおける多軸ガードレールの劣化と判断信頼性の測定
- Authors: Harry Owiredu-Ashley,
- Abstract要約: 大規模言語モデル(LLM)の安全性に対する多くの逆評価は、単一プロンプトを評価し、バイナリパス/フェイルの結果を報告する。
ADVERSAは、ガードレールのダイナミクスを丸ごとのコンプライアンストラジェクトリとして測定する自動化されたレッドチームフレームワークである。
トレーニングディストリビューションから展開された細調整された攻撃者に対して、アタッカードリフトを障害モードとして記述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most adversarial evaluations of large language model (LLM) safety assess single prompts and report binary pass/fail outcomes, which fails to capture how safety properties evolve under sustained adversarial interaction. We present ADVERSA, an automated red-teaming framework that measures guardrail degradation dynamics as continuous per-round compliance trajectories rather than discrete jailbreak events. ADVERSA uses a fine-tuned 70B attacker model (ADVERSA-Red, Llama-3.1-70B-Instruct with QLoRA) that eliminates the attacker-side safety refusals that render off-the-shelf models unreliable as attackers, scoring victim responses on a structured 5-point rubric that treats partial compliance as a distinct measurable state. We report a controlled experiment across three frontier victim models (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.2) using a triple-judge consensus architecture in which judge reliability is measured as a first-class research outcome rather than assumed. Across 15 conversations of up to 10 adversarial rounds, we observe a 26.7% jailbreak rate with an average jailbreak round of 1.25, suggesting that in this evaluation setting, successful jailbreaks were concentrated in early rounds rather than accumulating through sustained pressure. We document inter-judge agreement rates, self-judge scoring tendencies, attacker drift as a failure mode in fine-tuned attackers deployed out of their training distribution, and attacker refusals as a previously-underreported confound in victim resistance measurement. All limitations are stated explicitly. Attack prompts are withheld per responsible disclosure policy; all other experimental artifacts are released.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性評価の多くは、単一プロンプトを評価し、バイナリパス/フェイルの結果を報告している。
我々は,個別のジェイルブレイクイベントではなく,丸ごとの継続的コンプライアンストラジェクトリとしてガードレール劣化ダイナミクスを測定する,自動赤チームフレームワークADVERSAを提案する。
ADVERSAは、細調整された70Bアタッカーモデル(ADVERSA-Red, Llama-3.1-70B-Instruct with QLoRA)を使用しており、攻撃者として信頼できないオフザシェルフモデルの攻撃側の安全性の拒絶を排除し、部分コンプライアンスを別の測定可能な状態として扱う構造化された5ポイントルーブリック上で被害者の応答を評価する。
本稿では,3つのフロンティア犠牲者モデル(Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.2)に対して,判断信頼性を第一級研究結果として推定する三重ジャッジコンセンサスアーキテクチャを用いた制御実験を行った。
15対10対10対1の会話で平均1.25対26.7%のジェイルブレイク率を示し, この評価設定では, 持続的な圧力で蓄積するのではなく, 早期ラウンドに集中していたことが示唆された。
本報告では, 未報告の被害者抵抗測定において, 未報告のコンファウンドとして攻撃者を拒絶し, 被検者間の合意率, 自己判断傾向, 攻撃者のドリフトを, 訓練分布から展開した微調整攻撃者の障害モードとして記録する。
すべての制限は明示的に述べられている。
アタックプロンプトは、責任ある開示ポリシーに従って保持され、他の実験的なアーティファクトはすべて解放される。
関連論文リスト
- Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments [4.547649832854566]
大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-16T15:16:33Z) - Self-HarmLLM: Can Large Language Model Harm Itself? [10.208363125551555]
我々は、新しい入力と同じモデルで生成されたMHQ(Mitigated Harmful Query)を利用するSelf-HarmLLMシナリオを提案する。
GPT-3.5-turbo, LLaMA3-8B-instruct, and DeepSeek-R1-Distill-Qwen-7B under Base, Zero-shot, Few-shot conditions。
論文 参考訳(メタデータ) (2025-10-31T02:23:54Z) - JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring [45.76641811031552]
本稿では,JADES(Jailbreak Assessment via Decompositional Scoring)について紹介する。
その鍵となるメカニズムは、入力された有害な質問を一連の重み付けされたサブ問合せに自動的に分解し、各サブ問合せをスコアし、サブスコアを最終決定に重み付けすることである。
JADES on JailbreakQRは400対のjailbreakプロンプトと応答からなる新しいベンチマークで、それぞれが人間によって細心の注意を払って注釈付けされている。
論文 参考訳(メタデータ) (2025-08-28T14:40:27Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。