論文の概要: Detect--Repair--Verify for LLM-Generated Code: A Multi-Language, Multi-Granularity Empirical Study
- arxiv url: http://arxiv.org/abs/2603.23633v1
- Date: Tue, 24 Mar 2026 18:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.98494
- Title: Detect--Repair--Verify for LLM-Generated Code: A Multi-Language, Multi-Granularity Empirical Study
- Title(参考訳): LLM生成コードの検出-再検証:多言語・多言語実証的研究
- Authors: Cheng Cheng,
- Abstract要約: 大規模な言語モデルは実行可能なソフトウェアアーチファクトを生成することができるが、そのセキュリティはエンドツーエンドの評価が難しいままである。
本研究では、脆弱性を検出し、修復し、セキュリティおよび機能テストで再チェックするDRVワークフローを通じて、その問題を調査する。
現在の証拠の4つのギャップに対処する: LLMの生成したアーティファクトの試験的なベンチマークの欠如、パイプラインレベルの有効性に関する限られた証拠、修正ガイダンスとしての検出レポートの不確実な信頼性、検証中の不確実な修復信頼性。
- 参考スコア(独自算出の注目度): 10.18490328199727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can generate runnable software artifacts, but their security remains difficult to evaluate end to end. This study examines that problem through a Detect--Repair--Verify (DRV) workflow, in which vulnerabilities are detected, repaired, and then rechecked with security and functional tests. It addresses four gaps in current evidence: the lack of test-grounded benchmarks for LLM-generated artifacts, limited evidence on pipeline-level effectiveness, unclear reliability of detection reports as repair guidance, and uncertain repair trustworthiness under verification. To support this study, EduCollab is constructed as a multi-language, multi-granularity benchmark of runnable LLM-generated web applications in PHP, JavaScript, and Python. Each artifact is paired with executable functional and exploit test suites, and the benchmark spans project-, requirement-, and file-level settings. On this benchmark, the study compares unrepaired baselines, single-pass detect--repair, and bounded iterative DRV under comparable budget constraints. Outcomes are measured by secure-and-correct yield, and intermediate artifacts and iteration traces are analyzed to assess report actionability and repair failure modes. The results show that bounded iterative DRV can improve secure-and-correct yield over single-pass repair, but the gains are uneven at the project level and become clearer at narrower repair scopes. Detection reports are often useful for downstream repair, but their reliability is inconsistent. Repair trustworthiness also depends strongly on repair scope. These findings highlight the need for test-grounded, end-to-end evaluation of LLM-based vulnerability management workflows.
- Abstract(参考訳): 大規模な言語モデルは実行可能なソフトウェアアーチファクトを生成することができるが、そのセキュリティはエンドツーエンドの評価が難しいままである。
本研究では、脆弱性を検出し、修復し、セキュリティおよび機能テストで再チェックするDRVワークフローを通じて、その問題を調査する。
現在の証拠の4つのギャップに対処する: LLMの生成したアーティファクトの試験的なベンチマークの欠如、パイプラインレベルの有効性に関する限られた証拠、修正ガイダンスとしての検出レポートの不確実な信頼性、検証中の不確実な修復信頼性。
この研究をサポートするために、EduCollabは、PHP、JavaScript、Pythonで実行可能なLLM生成Webアプリケーションの多言語、多言語ベンチマークとして構築されている。
各アーティファクトは実行可能な機能とエクスプロイトテストスイートとペアリングされ、ベンチマークはプロジェクト、要件、ファイルレベルの設定にまたがる。
このベンチマークでは、同じ予算制約の下で、未調整のベースライン、シングルパス検出-リペア、および有界反復DRVを比較した。
出力は安全かつ正確な収量で測定され、中間アーティファクトと反復トレースを分析して、報告動作性および修理失敗モードを評価する。
以上の結果から, 単パス補修よりもバウンダリ反復DRVの方が安全かつ正確であることがわかったが, プロジェクトレベルでの利得は不均一であり, より狭い補修範囲ではより明確になる。
検出レポートは下流の修理に有用であるが、信頼性は不整合である。
修復信頼性もまた、修復範囲に強く依存する。
これらの知見は、LSMベースの脆弱性管理ワークフローをテストグラウンドでエンドツーエンドで評価する必要性を浮き彫りにした。
関連論文リスト
- VIBEPASS: Can Vibe Coders Really Pass the Vibe Check? [46.85901599242161]
emphFault-Triggering Test Generation(FT-Test)とemphFault-targeted Program repair(FPR)の2つの組み合わせタスクを評価した。
故障対象推論は一般的な符号化能力ではスケールしないことがわかった。
自己生成テストが障害の発見に成功すると、結果として得られた修復結果が外部から提供されたテストによってガイドされた修復と一致したり、性能が低下する。
論文 参考訳(メタデータ) (2026-03-16T21:14:28Z) - Detect Repair Verify for Securing LLM Generated Code: A Multi-Language Empirical Study [10.18490328199727]
セキュリティは、問題を検出し、修正を適用し、結果を検証するDerction-Repair--Verify (DRV)ループを通じて対処されることが多い。
この研究は、プロジェクトレベルのアーティファクトのワークフローを研究し、以下の4つのギャップに対処する: L1、実行可能な機能とセキュリティテストを備えたプロジェクトレベルのベンチマークの欠如 L2、検出や修復のみを研究すること以外のパイプラインレベルの有効性に関する限られた証拠 L3、修正ガイダンスとしての検出レポートの不確実な信頼性、そしてL4、検証中の不確実な修復信頼性と副作用。
論文 参考訳(メタデータ) (2026-03-01T03:41:24Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - From Benchmark Data To Applicable Program Repair: An Experience Report [1.6913109767046948]
本稿では,プログラムの自動修復へのアプローチについて述べる。
我々はこの目的を達成するために文学の様々な技法を組み合わせている。
実験の結果,我々の手法は標準ベンチマークの他の手法よりも優れていることがわかった。
綿密な検査では、これらのテクニックはいずれも、業界で見られる現実的な欠陥には効かない。
論文 参考訳(メタデータ) (2025-08-22T03:59:27Z) - Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs [5.10123605644148]
自動脆弱性修復(AVR: Automated Vulnerability repair)は、プログラム修復の急激な分岐である。
近年の研究では、大きな言語モデル(LLM)が従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-28T16:39:16Z) - A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback [7.742213291781287]
提案するVRpilotは,推論とパッチ検証フィードバックに基づく脆弱性修復手法である。
以上の結果から,VRpilotはCとJavaのベースライン技術よりも平均14%と7.6%の正確なパッチを生成することがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:29:48Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることでLCMレスポンスを編集することを提案し、また、サポートしているように見える事実の参照から証拠を提示する。
GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。