論文の概要: Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders
- arxiv url: http://arxiv.org/abs/2603.01246v1
- Date: Sun, 01 Mar 2026 19:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.587642
- Title: Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders
- Title(参考訳): ディフェンシブ・バイアス:サイバーディフェンダーの安全確保が損なわれる理由
- Authors: David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight,
- Abstract要約: 大きな言語モデル(LLM)における安全性の整合性は、主に誤用を防ぐことに焦点を当てている。
我々は、保護的拒否バイアス(Defensive Refusal Bias)について検討する。安全に配慮したフロンティアのLLMは、認証されたサイバーセキュリティタスクの援助を拒否する傾向にある。
システム硬化(43.8%)とマルウェア分析(34.3%)。
- 参考スコア(独自算出の注目度): 1.038167357593269
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safety alignment in large language models (LLMs), particularly for cybersecurity tasks, primarily focuses on preventing misuse. While this approach reduces direct harm, it obscures a complementary failure mode: denial of assistance to legitimate defenders. We study Defensive Refusal Bias -- the tendency of safety-tuned frontier LLMs to refuse assistance for authorized defensive cybersecurity tasks when those tasks include similar language to an offensive cyber task. Based on 2,390 real-world examples from the National Collegiate Cyber Defense Competition (NCCDC), we find that LLMs refuse defensive requests containing security-sensitive keywords at $2.72\times$ the rate of semantically equivalent neutral requests ($p < 0.001$). The highest refusal rates occur in the most operationally critical tasks: system hardening (43.8%) and malware analysis (34.3%). Interestingly, explicit authorization, where the user directly instructs the model that they have authority to complete the target task, increases refusal rates, suggesting models interpret justifications as adversarial rather than exculpatory. These findings are urgent for interactive use and critical for autonomous defensive agents, which cannot rephrase refused queries or retry. Our findings suggest that current LLM cybersecurity alignment relies on semantic similarity to harmful content rather than reasoning about intent or authorization. We call for mitigations that analyze intent to maximize defensive capabilities while still preventing harmful compliance.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性アライメント、特にサイバーセキュリティタスクは、主に誤用を防ぐことに焦点を当てている。
このアプローチは直接的な損害を軽減するが、補完的な障害モードを曖昧にしている。
我々は、防衛的拒否バイアス(Deepensive Refusal Bias)について検討する。安全に配慮したフロンティアのLLMは、攻撃的なサイバータスクと同じような言語を含む場合に、認証されたサイバーセキュリティタスクの支援を拒否する傾向にある。
NCCDC(National Collegiate Cyber Defense Competition)の2,390の実例に基づいて、LLMはセキュリティに敏感なキーワードを含む防御的要求を、意味論的に等価な中立的要求(p < 0.001$)のレート$2.72\timesで拒否する。
システム硬化(43.8%)とマルウェア分析(34.3%)である。
興味深いことに、ユーザが目的のタスクを完了する権限を持っていることをモデルに直接指示する明示的な承認は、拒絶率を増大させ、モデルが排他的ではなく正当性を逆境と解釈することを示唆する。
これらの発見は、対話的な使用のために緊急であり、拒否されたクエリや再試行を言い換えることができない自律的な防御エージェントにとって重要なものである。
以上の結果から,現在のLLMサイバーセキュリティアライメントは,意図や承認を推論するよりも,有害なコンテンツと意味的類似性に依存していることが示唆された。
有害なコンプライアンスを未然に防ぎつつ、防御能力を最大限にするための意図を分析するための緩和を呼び掛けている。
関連論文リスト
- A Content-Based Framework for Cybersecurity Refusal Decisions in Large Language Models [0.9603139911465765]
我々は、効果的な拒絶は、攻撃的リスクと防御的利益の間のトレードオフを明示的にモデル化する必要があると主張している。
違反防御トレードオフを明確にするサイバー拒否ポリシーを設計・監査するためのコンテンツベースのフレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-17T16:12:21Z) - To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack [14.333336222782856]
AIエージェントは、数千のターゲットにわたる脆弱性発見とエクスプロイトを自動化する。
現在の開発者は、データフィルタリング、安全アライメント、出力ガードレールによる誤用を防止することに重点を置いている。
AIエージェントによるサイバー攻撃は避けられないものであり、防御戦略の根本的な変更が必要であると我々は主張する。
論文 参考訳(メタデータ) (2026-02-01T12:37:55Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。
有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:45:23Z) - LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。
悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文 参考訳(メタデータ) (2024-10-03T19:07:53Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。