論文の概要: A Content-Based Framework for Cybersecurity Refusal Decisions in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.15689v2
- Date: Wed, 18 Feb 2026 16:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.987311
- Title: A Content-Based Framework for Cybersecurity Refusal Decisions in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるサイバーセキュリティ拒否決定のためのコンテンツベースフレームワーク
- Authors: Noa Linder, Meirav Segal, Omer Antverg, Gil Gekker, Tomer Fichman, Omri Bodenheimer, Edan Maor, Omer Nevo,
- Abstract要約: 我々は、効果的な拒絶は、攻撃的リスクと防御的利益の間のトレードオフを明示的にモデル化する必要があると主張している。
違反防御トレードオフを明確にするサイバー拒否ポリシーを設計・監査するためのコンテンツベースのフレームワークを導入する。
- 参考スコア(独自算出の注目度): 0.9603139911465765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models and LLM-based agents are increasingly used for cybersecurity tasks that are inherently dual-use. Existing approaches to refusal, spanning academic policy frameworks and commercially deployed systems, often rely on broad topic-based bans or offensive-focused taxonomies. As a result, they can yield inconsistent decisions, over-restrict legitimate defenders, and behave brittlely under obfuscation or request segmentation. We argue that effective refusal requires explicitly modeling the trade-off between offensive risk and defensive benefit, rather than relying solely on intent or offensive classification. In this paper, we introduce a content-based framework for designing and auditing cyber refusal policies that makes offense-defense tradeoffs explicit. The framework characterizes requests along five dimensions: Offensive Action Contribution, Offensive Risk, Technical Complexity, Defensive Benefit, and Expected Frequency for Legitimate Users, grounded in the technical substance of the request rather than stated intent. We demonstrate that this content-grounded approach resolves inconsistencies in current frontier model behavior and allows organizations to construct tunable, risk-aware refusal policies.
- Abstract(参考訳): 大規模言語モデルとLLMベースのエージェントは、本質的に二重用途のサイバーセキュリティタスクにますます利用されている。
既存の拒絶アプローチは、学術政策の枠組みや商業的に展開されたシステムにまたがっており、広範にトピックベースの禁止や攻撃に焦点を当てた分類に依存していることが多い。
その結果、不整合な決定を下し、過剰に制限された合法的な守備者を獲得し、難読化や要求セグメンテーションの下で脆く振る舞うことができる。
我々は、効果的な拒絶は、意図や攻撃的分類にのみ依存するのではなく、攻撃的リスクと防御的利益の間のトレードオフを明示的にモデル化する必要があると論じている。
本稿では,攻撃防御のトレードオフを明確にするサイバー拒否ポリシーを設計・監査するためのコンテンツベースフレームワークを提案する。
このフレームワークは、攻撃的行動貢献、攻撃的リスク、技術的複雑さ、防衛的利益、正規ユーザに対する期待された頻度の5つの側面に沿って要求を特徴付けており、要求の技術的内容は、明言された意図ではなく、根底にある。
このコンテンツベースアプローチは、現在のフロンティアモデル行動の不整合を解消し、組織が調整可能なリスク対応の拒絶ポリシーを構築することを可能にすることを実証する。
関連論文リスト
- YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models [36.084240131323824]
我々はYuFeng-XGuardについて紹介する。YuFeng-XGuardは大規模言語モデル(LLM)のための論理中心ガードレールモデルである。
YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや信頼性スコアを含む構造化されたリスク予測を生成する。
リスク認識を政策執行から切り離す動的政策機構を導入し、モデルの再訓練なしに安全政策を調整できるようにした。
論文 参考訳(メタデータ) (2026-01-22T02:23:18Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Learning to Extract Context for Context-Aware LLM Inference [60.376872353918394]
大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。
ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。
本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T19:10:08Z) - KG-DF: A Black-box Defense Framework against Jailbreak Attacks Based on Knowledge Graphs [22.335638814557004]
大規模言語モデル(LLM)のための知識グラフ防衛フレームワーク(KG-DF)を提案する。
構造化された知識表現とセマンティックアソシエーション機能により、知識ベースで安全な知識と入力コンテンツを関連付けることで、知識グラフ(KG)を検索することができる。
セマンティック解析モジュールを導入し、その中核となるタスクは、入力クエリを構造化された安全な概念表現の集合に変換することである。
論文 参考訳(メタデータ) (2025-11-09T14:39:40Z) - RAG Security and Privacy: Formalizing the Threat Model and Attack Surface [4.823988025629304]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)と外部文書検索を組み合わせて、より正確で基礎的な応答を生成する自然言語処理における新興のアプローチである。
既存の研究では、RAGがトレーニングデータ記憶や敵対的プロンプトを通じて機密情報を漏洩し、RAGシステムがこれらの脆弱性の多くを継承していることが示されている。
これらのリスクにもかかわらず、現在、RAGシステムの脅威状況を定義する公式なフレームワークは存在しない。
論文 参考訳(メタデータ) (2025-09-24T17:11:35Z) - Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Effective Red-Teaming of Policy-Adherent Agents [10.522087614181745]
タスク指向のLLMベースのエージェントは、適格性やキャンセルルールの返金といった厳格なポリシーを持つドメインで、ますます使われています。
本稿では,個人的利益のためにポリシーに忠実なエージェントを活用することを目的とした,敵対的ユーザに焦点を当てた新たな脅威モデルを提案する。
CRAFTは、ポリシーを意識した説得戦略を利用して、顧客サービスシナリオにおいてポリシーに忠実なエージェントを弱体化させるマルチエージェントのレッドチームシステムである。
論文 参考訳(メタデータ) (2025-06-11T10:59:47Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。
DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。
本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。