論文の概要: A Validated Prompt Bank for Malicious Code Generation: Separating Executable Weapons from Security Knowledge in 1,554 Consensus-Labeled Prompts
- arxiv url: http://arxiv.org/abs/2605.03179v1
- Date: Mon, 04 May 2026 21:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.658266
- Title: A Validated Prompt Bank for Malicious Code Generation: Separating Executable Weapons from Security Knowledge in 1,554 Consensus-Labeled Prompts
- Title(参考訳): 悪意のあるコード生成のための検証されたプロンプトバンク:1,554個のコンセンサスラベルされたプロンプトにおいて、セキュリティ知識から実行可能な武器を分離する
- Authors: Richard J. Young, Gregory D. Moody,
- Abstract要約: 本稿では,5モデルコンセンサスプロトコルを通じて運用される武器対知識分類軸を提案する。
これは4つの公開ベンチマークから引き出された3,133のプロンプトに適用される。
3,133のプロンプトは3-of-5のしきい値に達したため、コンセンサスパイプラインは曖昧さを除いたプロンプトを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks of language-model refusal on malicious-coding tasks routinely conflate requests for executable malicious software with requests for harmful security knowledge. This conflation matters because the two request types plausibly trigger distinct refusal pathways in safety-aligned language models, and a single refusal-rate statistic computed over a mixture cannot isolate either. This paper introduces a weapons-versus-knowledge classification axis, operationalized through a five-model consensus protocol, and applies it to 3,133 prompts drawn from four public benchmarks, yielding a 1,554-prompt consensus-CODE bank (the primary released artifact) and a 388-prompt consensus-KNOWLEDGE comparison set used by the companion benchmark paper. The consensus pipeline uses five large-language-model judges spanning four vendor families (Anthropic, OpenAI, Google, Zhipu AI, Alibaba), each issuing a binary CODE/KNOWLEDGE label per prompt under a three-of-five majority rule, with inter-rater reliability quantified by Fleiss' kappa with bootstrap 95% confidence intervals. Across all 3,133 prompts the five judges achieve kappa = 0.876 [95% CI: 0.862, 0.888], "almost perfect" agreement by the Landis & Koch convention, with 69.3% of prompts unanimous at five-of-five; all 3,133 prompts reached the 3-of-5 threshold, so the consensus pipeline produced zero ambiguity-excluded prompts. Whether the axis separates model behavior in practice is an empirical question this paper leaves to the companion benchmark study; the present contribution is the reliability-documented artifact and the case for treating the weapons-versus-knowledge distinction as the organizing axis of code-safety evaluation.
- Abstract(参考訳): 悪意のあるコーディングタスクに対する言語モデル拒絶の既存のベンチマークでは、悪意のあるソフトウェアに対するリクエストを、有害なセキュリティ知識の要求で定期的に分割している。
この解釈は、2つの要求型が、安全に整合した言語モデルにおいて明確な拒絶経路を生じさせる可能性が高く、混合物上で計算された1つの拒絶率統計は、どちらも分離できないため重要である。
本稿では,5モデルコンセンサスプロトコルを用いて運用された武器対知識分類軸を4つの公開ベンチマークから抽出した3,133個のプロンプトに適用し,1,554個のコンセンサス-CODEバンクと388個のコンセンサス-KNOWLEDGE比較セットを作成した。
コンセンサスパイプラインでは,4つのベンダファミリ(Anthropic, OpenAI, Google, Zhipu AI, Alibaba)にまたがる5つの大きな言語モデル判断器(Anthropic, OpenAI, Google, Zhipu AI, Alibaba)を使用する。
全3,133件で、カッパ=0.876[95% CI: 0.862, 0.888]、ランディス・アンド・コッホ協定による「ほぼ完璧な」合意が成立し、69.3%が5対5で一致し、3,133件のプロンプトは3対5の閾値に達した。
本論文は, 信頼性文書化アーティファクトと, コードセーフティ評価の組織化軸としての兵器・兵器・知識の区別を扱い, モデル行動の分離が実証的な問題であるかどうかを考察する。
関連論文リスト
- MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - Security Is Relative: Training-Free Vulnerability Detection via Multi-Agent Behavioral Contract Synthesis [14.657771106188115]
脆弱性検出のためのトレーニング不要なマルチエージェントフレームワークであるPhoenixを提案する。
Phoenixは、検出をセマンティックスライダ、要求リバースエンジニア、契約審査員の3つのステージに分解する。
PrimeVul Pairedでは、Phoenix は F1 = 0.825 と Pair-Correct = 64.4% を獲得し、RASM-Vul (F1 = 0.668) と VulTrial (F1 = 0.563) を上回る。
論文 参考訳(メタデータ) (2026-04-21T03:02:34Z) - Broken by Default: A Formal Verification Study of Security Vulnerabilities in AI-Generated Code [0.0]
Broken by Defaultは、500のセキュリティクリティカルなプロンプトにまたがる7つの広くデプロイされたLLMによって生成される3500のコードアーティファクトの正式な検証研究である。
すべてのモデル全体で、55.8%のアーティファクトは少なくとも1つのCOBALT識別された脆弱性を含んでいる。
GPT-4oは62.4%(グレードF)、Gemini 2.5 Flashは48.4%(グレードD)である。
論文 参考訳(メタデータ) (2026-04-07T00:55:42Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。