論文の概要: Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis
- arxiv url: http://arxiv.org/abs/2602.16741v1
- Date: Wed, 18 Feb 2026 00:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.261484
- Title: Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis
- Title(参考訳): 反論ベースの攻撃とLLMコード分析に対する防衛に関する大規模な実証的研究
- Authors: Scott Thornton,
- Abstract要約: 敵対的なコメントは、検出精度に小さな、統計的に重要でない効果をもたらす。
複雑な敵戦略は単純な操作的コメントに勝るものではない。
コメントストリッピングは、有用なコンテキストを削除することで、より弱いモデルの検出を減らす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI-assisted code review is widely used to detect vulnerabilities before production release. Prior work shows that adversarial prompt manipulation can degrade large language model (LLM) performance in code generation. We test whether similar comment-based manipulation misleads LLMs during vulnerability detection. We build a 100-sample benchmark across Python, JavaScript, and Java, each paired with eight comment variants ranging from no comments to adversarial strategies such as authority spoofing and technical deception. Eight frontier models, five commercial and three open-source, are evaluated in 9,366 trials. Adversarial comments produce small, statistically non-significant effects on detection accuracy (McNemar exact p > 0.21; all 95 percent confidence intervals include zero). This holds for commercial models with 89 to 96 percent baseline detection and open-source models with 53 to 72 percent, despite large absolute performance gaps. Unlike generation settings where comment manipulation achieves high attack success, detection performance does not meaningfully degrade. More complex adversarial strategies offer no advantage over simple manipulative comments. We test four automated defenses across 4,646 additional trials (14,012 total). Static analysis cross-referencing performs best at 96.9 percent detection and recovers 47 percent of baseline misses. Comment stripping reduces detection for weaker models by removing helpful context. Failures concentrate on inherently difficult vulnerability classes, including race conditions, timing side channels, and complex authorization logic, rather than on adversarial comments.
- Abstract(参考訳): AI支援コードレビューは、本番リリース前に脆弱性を検出するために広く使用されている。
以前の研究は、コード生成において、敵のプロンプト操作が大きな言語モデル(LLM)の性能を低下させることを示した。
同様のコメントベースの操作が脆弱性検出時にLLMを誤解させるかどうかを検証する。
Python、JavaScript、Javaにまたがって100サンプルのベンチマークを構築しました。
8つのフロンティアモデル、5つの商用モデルと3つのオープンソースモデルが9,366の試験で評価されている。
対立するコメントは、検出精度に小さな統計的に重要な効果をもたらす(McNemar exact p > 0.21; すべての95%の信頼区間は0を含む)。
これは、89~96%のベースライン検出を持つ商用モデルと、53~72%のオープンソースモデルに対して、絶対的なパフォーマンスのギャップが大きいにもかかわらず、維持される。
コメント操作が高い攻撃成功を達成する生成設定とは異なり、検出性能は有意に劣化しない。
より複雑な敵の戦略は、単純な操作的なコメントに勝るものではない。
我々は4,646回の追加試験(合計14,012回)で4つの自動防御試験を行った。
静的解析の相互参照は96.9%で最高であり、ベースラインミスの47%を回復する。
コメントストリッピングは、有用なコンテキストを削除することで、より弱いモデルの検出を減らす。
障害は、競合するコメントではなく、競合条件、タイミング側チャネル、複雑な認証ロジックなど、本質的に難しい脆弱性クラスに集中します。
関連論文リスト
- Bridging Expert Reasoning and LLM Detection: A Knowledge-Driven Framework for Malicious Packages [10.858565849895314]
NPMやPyPIといったオープンソースエコシステムは、サプライチェーン攻撃によってますます標的になってきている。
我々は、専門家による解析的推論を自動化された悪意のあるパッケージ検出に統合する、検索強化世代(RAG)ベースのフレームワークであるIntelGuardを紹介する。
論文 参考訳(メタデータ) (2026-01-23T05:31:12Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection [9.269926508651091]
大規模言語モデル(LLM)は、脆弱性検出などの安全クリティカルなコードタスクに制限があることを示している。
本稿では,脆弱性の自然言語命令を,対照的な連鎖推論と統合する戦略を提案する。
本研究は,静的アナライザの厳格な手作りルールに代えて,セキュリティ対応のプロンプト技術が有効であることを示す。
論文 参考訳(メタデータ) (2024-12-16T18:08:14Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - RS-Del: Edit Distance Robustness Certificates for Sequence Classifiers
via Randomized Deletion [23.309600117618025]
離散列分類器のランダム化スムーシングを適用して、編集距離境界の敵に対して確固たるロバスト性を提供する。
私たちの証明は、確立されたNeyman-Pearsonアプローチから逸脱したものです。
一般的なMalConvマルウェア検出モデルに適用すると、スムーシング機構RS-Delは128バイトの編集距離半径で91%の精度を達成できる。
論文 参考訳(メタデータ) (2023-01-31T01:40:26Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。