論文の概要: Code as a Weapon: A Consensus-Labeled Prompt Bank for Measuring Coding-Model Compliance with Malicious-Code Requests
- arxiv url: http://arxiv.org/abs/2605.28734v1
- Date: Wed, 27 May 2026 16:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.230954
- Title: Code as a Weapon: A Consensus-Labeled Prompt Bank for Measuring Coding-Model Compliance with Malicious-Code Requests
- Title(参考訳): コード・アズ・ア・ウェポン:悪質なコード要求に対するコーディング・モデルコンプライアンスを計測する合意付プロンプト銀行
- Authors: Richard J. Young, Gregory D. Moody,
- Abstract要約: 符号化特化モデルは、汎用チャットモデルよりも高い拒絶バーをクリアすべきである。
8つのコーパス(ASTRA、CySecBench、AdvBench/harmful_behaviors、JailbreakBench、MalwareBench、RedCode、RCCBench、Scam2Prompt)は5judgeコンセンサスプロトコルで統合され、分類される。
コーディングモデルがより厳格な拒絶基準を満たしているかどうかをテストするための信頼性基準である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A general-purpose language model that answers a harmful question returns text; a coding model that complies with a malicious request can return a working weapon -- a keylogger, a ransomware stub, an exploit that runs as written. This asymmetry in the severity of a single act of compliance implies coding-specialized models should clear a higher refusal bar than general-purpose chat models, not a lower one, yet the field cannot presently tell whether they do. Refusal benchmarks for malicious code are fragmented: they mix requests for executable software (ready-to-run weapons) with requests for harmful security knowledge (information a human must still operationalise) and report refusal rates over non-comparable corpora, so no single statistic measures the property that actually matters. This paper introduces an expanded consensus-labeled prompt bank that distinguishes between these two request types and provides a construct-stable substrate for cross-corpus coding-model compliance measurement. Eight corpora (ASTRA, CySecBench, AdvBench/harmful_behaviors, JailbreakBench, MalwareBench, RedCode, RMCBench, Scam2Prompt) are consolidated and classified under a five-judge consensus protocol (6,675 prompts x 5 judges = 33,375 calls). The panel reaches Fleiss' kappa = 0.767 [95% CI 0.755, 0.777] ("substantial"); 95.0% of prompts draw at least four agreeing judges, 76.9% are unanimous, and the panel reproduces the earlier four-corpus release at Cohen's kappa = 0.952 on the 3,133 shared prompts. The released bank comprises 4,748 consensus-CODE prompts (executable malicious code requests) and 1,923 consensus-KNOWLEDGE prompts (harmful security knowledge requests). The bank is the validated instrument the field has lacked: a reliability-quantified basis for testing whether coding models meet the stricter refusal standard their executable output demands.
- Abstract(参考訳): 有害な質問に答える汎用言語モデルはテキストを返します。悪意のある要求に準拠するコーディングモデルは、動作する武器 -- キーロガー、ランサムウェアスタブ、書かれたように実行されるエクスプロイト -- を返すことができます。
単一法則の厳密性におけるこの非対称性は、符号化されたモデルは、より低い法則ではなく、汎用的なチャットモデルよりも高い拒絶バーをクリアすべきであることを意味している。
悪意のあるコードに対する拒絶ベンチマークは断片化されている: 実行可能ソフトウェア(実行可能な武器)に対する要求と有害なセキュリティ知識(人間がまだ運用しなければならない情報)の要求を混合し、非互換性のコーパスに対する拒絶率を報告する。
本稿では、この2つの要求タイプを区別する拡張されたコンセンサスラベル付きプロンプトバンクを導入し、クロスコーパス符号化モデルコンプライアンス測定のための構成安定基板を提供する。
8つのコーポラ(ASTRA、CySecBench、AdvBench/harmful_behaviors、JailbreakBench、MalwareBench、RedCode、RCCBench、Scam2Prompt)は5judgeコンセンサスプロトコル(x5の判断を33,375の呼び出しに促す6,675)で統合され、分類される。
パネルはFleiss' kappa = 0.767 [95% CI 0.755, 0.777] ("substantial") に到達し、95.0%のプロンプトは少なくとも4人の一致した審査員を引き、76.9%は全会一致であり、パネルはコーエンのkappa = 0.952での初期の4つのコーパスリリースを再現する。
リリースされた銀行は、4,748のコンセンサス-CODEプロンプト(実行可能な悪意のあるコード要求)と1,923のコンセンサス-KNOWLEDGEプロンプト(有害なセキュリティ知識要求)で構成されている。
コーディングモデルが実行可能出力要求のより厳格な拒絶標準を満たすかどうかをテストするための信頼性基準である。
関連論文リスト
- RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts [0.0]
厳格な拒絶率は、同じプロンプトで0.1%から94.6%である。
18のフロンティアモデルのうち9つは、バイナリーリフェールメトリクスが検出できないデュアルユース層で、ヘッジ・ブット・ヘルプ部分コンプライアンスパターンを示す。
論文 参考訳(メタデータ) (2026-05-20T09:53:31Z) - Refusal Evaluation in Coding LLMs and Code Agents: A Systematic Review of Thirteen Malicious-Code Prompt Corpora (2023-2025) [0.0]
既存の調査では、コードセキュリティ、ジェイルブレイク分類、または脆弱性検出を中心的な対象として扱い、パス時にのみこれらのコーパスに言及している。
本稿では,素早いデータセットを解析単位として扱う。
合成は3つの連続する方法論的ギャップを表面化する。
論文 参考訳(メタデータ) (2026-05-19T18:05:51Z) - Hallucination as Exploit: Evidence-Carrying Multimodal Agents [10.441697487723568]
マルチモーダルエージェントはますます、スクリーンショットやドキュメント、Webページからツールコールを選択している。
本稿では,自由形式モデルテキストを不許容な証拠として扱うエビデンス搬送型マルチモーダルエージェント(ECA)を提案する。
ECAは不透明なモデルの信念を検証者、スキーマ、実装レベルで監査可能な残留物に変換する。
論文 参考訳(メタデータ) (2026-05-18T23:40:43Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - A Validated Prompt Bank for Malicious Code Generation: Separating Executable Weapons from Security Knowledge in 1,554 Consensus-Labeled Prompts [0.0]
本稿では,5モデルコンセンサスプロトコルを通じて運用される武器対知識分類軸を提案する。
これは4つの公開ベンチマークから引き出された3,133のプロンプトに適用される。
3,133のプロンプトは3-of-5のしきい値に達したため、コンセンサスパイプラインは曖昧さを除いたプロンプトを生成する。
論文 参考訳(メタデータ) (2026-05-04T21:42:10Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Robust Encodings: A Framework for Combating Adversarial Typos [85.70270979772388]
NLPシステムは入力の小さな摂動によって容易に騙される。
このような混乱に対して防御するための既存の手順は、最悪の場合の攻撃に対して確実な堅牢性を提供する。
モデルアーキテクチャに妥協を加えることなく、ロバスト性を保証するロブエン(RobEn)を導入します。
論文 参考訳(メタデータ) (2020-05-04T01:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。