論文の概要: Refusal Evaluation in Coding LLMs and Code Agents: A Systematic Review of Thirteen Malicious-Code Prompt Corpora (2023-2025)
- arxiv url: http://arxiv.org/abs/2605.20351v1
- Date: Tue, 19 May 2026 18:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.310025
- Title: Refusal Evaluation in Coding LLMs and Code Agents: A Systematic Review of Thirteen Malicious-Code Prompt Corpora (2023-2025)
- Title(参考訳): コーディングLLMとコードエージェントの拒絶評価:13個の悪意コードプロンプトコーパスの体系的レビュー(2023-2025)
- Authors: Richard J. Young, Gregory D. Moody,
- Abstract要約: 既存の調査では、コードセキュリティ、ジェイルブレイク分類、または脆弱性検出を中心的な対象として扱い、パス時にのみこれらのコーパスに言及している。
本稿では,素早いデータセットを解析単位として扱う。
合成は3つの連続する方法論的ギャップを表面化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of large language model refusal on malicious-coding tasks now spans at least thirteen publicly released prompt corpora (AdvBench, the CyberSecEval family, RMCBench, RedCode, MCGMark, JailbreakBench, CySecBench, MalwareBench, CIRCLE, MOCHA, ASTRA, Scam2Prompt / Innoc2Scam-bench, and JAWS-Bench), each constructed under a different protocol, released under different licensing terms, and validated (or not) against different inter-rater reliability standards. Existing surveys treat code security, jailbreak taxonomy, or vulnerability detection as the central object and mention these corpora only in passing. This paper reverses that framing: it treats the prompt datasets themselves as the unit of analysis. Following a PRISMA-style protocol, we specify a search strategy, screen the recent literature on coding-LLM refusal evaluation, apply a uniform extraction template to each in-scope corpus, and synthesize the resulting catalogue along construction methodology, prompt-construction taxonomy (modality, turn structure, elicitation style), reproducibility and licensing, and malware-category coverage. The synthesis surfaces three recurring methodological gaps: the absence of human-annotator baselines against which LLM-judge labels can be calibrated, the absence of cross-corpus comparability with refusal-rate statistics measuring non-equivalent constructs, and the fragmentation of malware-category taxonomies, with no canonical schema spanning the thirteen in-scope corpora. The review concludes with proposed methodological directions for next-generation corpora, including pre-registration of inclusion criteria, vendor-diverse multi-judge validation, Fleiss' kappa with bootstrap CI as the reliability baseline, and a candidate canonical taxonomy.
- Abstract(参考訳): 悪意のあるコーディングタスクにおける大きな言語モデルの評価は、少なくとも13の公開プロンプトコーパス(AdvBench、CyberSecEvalファミリー、RCCBench、RedCode、MCGMark、JailbreakBench、CySecBench、MalwareBench、CIRCLE、MOCHA、ASTRA、Scam2Prompt / Innoc2Scam-bench、JAWS-Bench)にまたがっている。
既存の調査では、コードセキュリティ、ジェイルブレイク分類、または脆弱性検出を中心的な対象として扱い、パス時にのみこれらのコーパスに言及している。
この論文はフレーミングを逆転させ、プロンプトデータセット自体を分析単位として扱う。
PRISMAスタイルのプロトコルに従うと、検索戦略を特定し、コーディング-LLMの拒否評価に関する最近の文献をスクリーニングし、各スコープのコーパスに均一な抽出テンプレートを適用し、構築手法、即時構築分類(モダリティ、ターン構造、エリケーションスタイル)、再現性とライセンシング、マルウェアカテゴリのカバレッジに沿って結果のカタログを合成する。
LLM-judgeラベルを校正できるヒト-アノテータベースラインの欠如、非等価な構成を計測する拒絶率統計によるクロスコーパスコンパビリティの欠如、13の顕微鏡コーパスにまたがる標準スキーマのないマルウェアカテゴリー分類の断片化である。
このレビューでは、包括的基準の事前登録、ベンダー間マルチジャッジの検証、ブートストラップCIを信頼性基準としたFleiss' kappa、標準分類の候補など、次世代コーパスの方法論的な方向性が提案されている。
関連論文リスト
- MACAA: Belief-Revision Multi-Agent Reasoning for Code Authorship Verification [8.089784374872744]
トレーニング不要なコードオーサシップ検証のための信念修正に基づくフレームワークであるMACAAを提案する。
MACAAはコーディネーターと4人の専門家エージェントで構成され、レイアウト、語彙、構文、プログラミングパターンのエビデンスを分析している。
MACAAは、同言語ベンチマークで89.15%のF1、混在する言語ペアで80.00%を達成し、同言語と言語間の評価で全体のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-05-10T08:47:05Z) - Arbiter: Detecting Interference in LLM Agent System Prompts [0.0]
Arbiterは、システムプロンプト内の干渉パターンを検出するために、形式的評価ルールとマルチモデルLCMスカーリングを組み合わせたフレームワークである。
Claude Code (Anthropic), Codex CLI (OpenAI), Gemini CLI (Google)の3つの主要なコーディングエージェントシステムに適用される。
論文 参考訳(メタデータ) (2026-03-09T22:29:47Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - The Compliance Paradox: Semantic-Instruction Decoupling in Automated Academic Code Evaluation [11.984098021215878]
SPACI(Semantic-Preserving Adrial Code Injection)フレームワークとAST-ASIP(Abstract Syntax Tree-Aware Semantic Injection Protocol)を紹介する。
これらの方法は、抽象構文木(英語版)の構文的に不活性な領域(トリヴィアノード)に逆方向の指示を埋め込むことにより、構文解析ギャップを利用する。
Python、C、C++、Javaの25,000のサブミッションにまたがる9つのSOTAモデルの大規模な評価を通じて、DeepSeek-V3のような高容量オープンウェイトモデルにおいて、破滅的な失敗率(>95%)を明らかにします。
論文 参考訳(メタデータ) (2026-01-29T07:40:58Z) - RULERS: Locked Rubrics and Evidence-Anchored Scoring for Robust LLM Evaluation [15.787947727055611]
本稿では,自然言語ルーブを実行可能な仕様に変換するコンパイラ・エグゼクタフレームワークであるRULERSを紹介する。
RULERSは、基準をバージョニングされた不変バンドルにコンパイルし、決定論的証拠検証による構造化復号を強制し、軽量なワッサーシュタインベースのポストホックキャリブレーションを適用する。
論文 参考訳(メタデータ) (2026-01-13T15:31:42Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。