論文の概要: Measuring Safety Alignment Effects in Autonomous Security Agents
- arxiv url: http://arxiv.org/abs/2605.19722v1
- Date: Tue, 19 May 2026 11:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.309577
- Title: Measuring Safety Alignment Effects in Autonomous Security Agents
- Title(参考訳): 自律型保安エージェントの安全アライメント効果の測定
- Authors: Isaac David, Arthur Gervais,
- Abstract要約: セキュリティエージェントは、レポジトリを検査し、ツールを呼び出し、認証されたサンドボックス内で脆弱性証拠を生成する必要がある。
固定ツール、決定論的成功予測、リアクションルール、グラウンドチェックを備えた30のローカル脆弱性分析タスクのトレースベースのベンチマークを示す。
自律型セキュリティエージェントの安全性アライメント効果をシステムレベルで測定し, 拒絶, 不安全行動, ツール信頼性, 根拠を分離する。
- 参考スコア(独自算出の注目度): 3.93181912653522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do stock safety-aligned language models and their uncensored or abliterated derivatives behave differently when run as autonomous security agents? Single-turn refusal benchmarks cannot answer this question: security agents must inspect repositories, call tools, and produce vulnerability evidence inside authorized sandboxes. We present a trace-based benchmark of 30 local vulnerability-analysis tasks with fixed tools, deterministic success predicates, redaction rules, and grounding checks, and compare four stock models against uncensored or abliterated derivatives: Gemma 4 31B, Gemma 4 26B A4B, Qwen2.5-Coder 7B, and Llama 3.1 8B. The artifact contains 1,500 security-agent traces and 800 non-security control traces. The Gemma pairs show large less-restricted gains on security tasks: 14.0% versus 0.7% success for 31B and 10.7% versus 0.0% for 26B, with higher mean grounding (3.91 versus 3.27 and 4.12 versus 1.64 out of five) and 0.0% refusal, suppressed-action, and unsafe-action rates in the 31B traces. However, controls and non-Gemma pairs rule out a clean security-specific or universal less-restricted effect: Gemma gaps also appear on ordinary coding tasks, Qwen2.5-Coder success is lower for the less-restricted derivative (2.0% versus 5.3%), and the abliterated Llama derivative fails the tool protocol. Across all families, hard proof-of-trigger and patch-verification tasks remain unsolved. These results show that safety alignment effects in autonomous security agents should be measured at the system level, separating refusal, unsafe action, tool reliability, and evidence grounding rather than treating refusal rate as the safety signal.
- Abstract(参考訳): ストックセーフティ・アラインな言語モデルと、その無検閲または失効したデリバティブは、自律的なセキュリティエージェントとして実行される場合、異なる振る舞いをするだろうか?
セキュリティエージェントはリポジトリを検査し、ツールを呼び出し、認証されたサンドボックス内で脆弱性証拠を生成する必要があります。
固定ツール,決定論的成功予測,リアクションルール,グラウンドングチェックを備えた30のローカル脆弱性分析タスクのトレースベースのベンチマークを,Gemma 4 31B,Gemma 4 26B A4B,Qwen2.5-Coder 7B,Llama 3.1 8Bの4つのストックモデルと比較した。
このアーティファクトには1500のセキュリティエージェントトレースと800の非セキュリティコントロールトレースが含まれている。
Gemmaペアはセキュリティタスクにおいて、14.0%が31Bで0.7%が成功、10.7%が26Bで0.0%が平均接地率(3.91対3.27対4.12対5.64対1.64対5)、0.0%が拒絶、抑制されたアクション、そして31Bトレースで安全でないアクションレートである。
Gemmaのギャップは通常のコーディングタスクにも現れるし、Qwen2.5-Coderの成功率は低い(2.0%対5.3%)デリバティブでは低く、失効したLlamaデリバティブはツールプロトコルに失敗する。
すべての家庭で、厳密な証明とパッチ検証のタスクは未解決のままである。
これらの結果から,自律型セキュリティエージェントの安全アライメント効果をシステムレベルで測定し,拒絶率を安全信号として扱うのではなく,拒絶,不安全行動,ツール信頼性,根拠を分離すべきであることが示唆された。
関連論文リスト
- Ablating Safety: Mechanisms for Removing Alignment in Language Models for Security Applications [3.93181912653522]
安全に配慮した言語モデルは、言葉が誤用に似ているサイバーセキュリティ要求を拒否することが多い。
これはセキュリティ評価を曖昧なものにする: 失敗した答えは、能力の欠如や、政治介入の拒絶を反映しているかもしれない。
我々は, 拒否, 試行率, 検証済みセキュリティ成功, 一般能力維持, 不安定性, スコープ外不安全コンプライアンスをSecurity-ARで評価した。
論文 参考訳(メタデータ) (2026-05-17T12:18:20Z) - ContractBench: Can LLM Agents Preserve Observation Contracts? [9.057486468322933]
観察契約の遵守は、緊急かつ回帰的な能力であることを示す。
ContractBenchは、2つの障害モードを探索する33の二重軸タスクのベンチマークである。
i)評価モデルが80%,Claude-Opus-4.6が77.8%, (ii)Qwen 3.5で4B (0%) から9B (56.6%) の急激な家庭内能力崖が397B-A17Bで70.7%, (iii) GPT-5ファミリーでの非単調性スケーリングが消失した。
論文 参考訳(メタデータ) (2026-05-17T06:37:04Z) - On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment [54.30690671490447]
既存の安全アライメント信号は、主に応答レベルまたは政治外である。
FATEは、検証済みの失敗を専門家のデモンストレーションなしで修復管理に変換する。
FATEは攻撃成功率を33.5%、有害なコンプライアンスを82.6%削減し、外的軌道安全診断を6.5%改善する。
論文 参考訳(メタデータ) (2026-05-12T09:56:28Z) - Broken by Default: A Formal Verification Study of Security Vulnerabilities in AI-Generated Code [0.0]
Broken by Defaultは、500のセキュリティクリティカルなプロンプトにまたがる7つの広くデプロイされたLLMによって生成される3500のコードアーティファクトの正式な検証研究である。
すべてのモデル全体で、55.8%のアーティファクトは少なくとも1つのCOBALT識別された脆弱性を含んでいる。
GPT-4oは62.4%(グレードF)、Gemini 2.5 Flashは48.4%(グレードD)である。
論文 参考訳(メタデータ) (2026-04-07T00:55:42Z) - ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents [0.0]
GAPベンチマークは、LLMエージェントのテキストレベルの安全性とツールレベルの安全性のばらつきを測定する。
我々は,モデルテキスト出力が有害な要求を拒否し,そのツールコールが同時に禁じられたアクションを実行する事例を観察し,GAPメトリックとして形式化する。
論文 参考訳(メタデータ) (2026-02-18T23:17:15Z) - Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。