論文の概要: I Can't Believe It's Not a Valid Exploit
- arxiv url: http://arxiv.org/abs/2602.04165v1
- Date: Wed, 04 Feb 2026 02:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.349658
- Title: I Can't Believe It's Not a Valid Exploit
- Title(参考訳): 正体不明の爆発物だとは思えない
- Authors: Derin Gezgin, Amartya Das, Shinhae Kim, Zhengdong Huang, Nevena Stojkovic, Claire Wang,
- Abstract要約: 我々は,大規模言語モデルによるJavaセキュリティ脆弱性に対するPoC生成フレームワークPoC-Gymを開発した。
静的解析ツールによるガイダンスがPoC生成の成功率を向上させるか否かを評価し,結果のPoCを手作業で検査する。
- 参考スコア(独自算出の注目度): 0.23749905164931204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently Large Language Models (LLMs) have been used in security vulnerability detection tasks including generating proof-of-concept (PoC) exploits. A PoC exploit is a program used to demonstrate how a vulnerability can be exploited. Several approaches suggest that supporting LLMs with additional guidance can improve PoC generation outcomes, motivating further evaluation of their effectiveness. In this work, we develop PoC-Gym, a framework for PoC generation for Java security vulnerabilities via LLMs and systematic validation of generated exploits. Using PoC-Gym, we evaluate whether the guidance from static analysis tools improves the PoC generation success rate and manually inspect the resulting PoCs. Our results from running PoC-Gym with Claude Sonnet 4, GPT-5 Medium, and gpt-oss-20b show that using static analysis for guidance and criteria lead to 21% higher success rates than the prior baseline, FaultLine. However, manual inspection of both successful and failed PoCs reveals that 71.5% of the PoCs are invalid. These results show that the reported success of LLM-based PoC generation can be significantly misleading, which is hard to detect with current validation mechanisms.
- Abstract(参考訳): 近年のLarge Language Models (LLM) は,概念実証(PoC)エクスプロイトの生成を含むセキュリティ脆弱性検出タスクに使用されている。
PoCエクスプロイト(PoC exploit)は、脆弱性をどのように悪用するかを示すプログラムである。
いくつかのアプローチは、LCMのサポートがPoC生成結果を改善することを示唆し、その効果のさらなる評価を動機付けている。
本研究では,LLMによるJavaセキュリティ脆弱性に対するPoC生成フレームワークであるPoC-Gymを開発し,生成したエクスプロイトの体系的検証を行う。
PoC-Gymを用いて静的解析ツールのガイダンスがPoC生成の成功率を向上させるか否かを評価し,結果のPoCを手作業で検査する。
The results from PoC-Gym with Claude Sonnet 4, GPT-5 Medium, and gpt-oss-20b showed that using static analysis for guidance and criteria showed 21% higher success rate than the previous baseline, FaultLine。
しかし、成功したPoCと失敗したPoCの両方を手動で検査した結果、PoCの71.5%が無効であることが判明した。
以上の結果から,LLMによるPoC生成の成功は極めて誤解を招く可能性があり,現在の検証機構では検出が困難であることが示唆された。
関連論文リスト
- A Systematic Study on Generating Web Vulnerability Proof-of-Concepts Using Large Language Models [13.035038702785512]
本稿では,Webアプリケーション脆弱性に対するLarge Language Models(LLMs)ベースのPoC生成に関する実証的研究について紹介する。
以上の結果から, LLMは公共データのみを用いて, 8%~34%の症例で作業用PoCを自動生成できることがわかった。
さらなる分析によると、コードコンテキストを補完することで成功率が17%-20%向上し、関数レベルが9%-13%改善した。
論文 参考訳(メタデータ) (2025-10-11T10:15:38Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - PoCGen: Generating Proof-of-Concept Exploits for Vulnerabilities in Npm Packages [13.877936187495555]
我々は,npmパッケージの脆弱性に対するPoCエクスプロイトを自律的に生成し,検証する新しいアプローチであるPoCGenを提案する。
PoCGenはSecBench$.jsデータセットの脆弱性の77%のエクスプロイトを生成することに成功した。
論文 参考訳(メタデータ) (2025-06-05T12:37:33Z) - Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models [16.83476701024932]
Greedy Coordinate Gradient (GCG) 法は, 脱獄状態のLDMを自動生成する能力を示した。
本稿では、接尾辞トークンの勾配情報を利用して間接効果に対処するモデル攻撃勾配指数GCG(MAGIC)を提案する。
AdvBenchの実験では、MAGICは最大1.5倍のスピードアップを実現し、ASR(Attack Success Rates)を同等以上維持している。
論文 参考訳(メタデータ) (2024-12-11T18:37:56Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。