論文の概要: SecureReviewer: Enhancing Large Language Models for Secure Code Review through Secure-aware Fine-tuning
- arxiv url: http://arxiv.org/abs/2510.26457v1
- Date: Thu, 30 Oct 2025 13:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.81439
- Title: SecureReviewer: Enhancing Large Language Models for Secure Code Review through Secure-aware Fine-tuning
- Title(参考訳): SecureReviewer: セキュアなコードレビューのための大規模言語モデルの実現
- Authors: Fang Liu, Simiao Liu, Yinghao Zhu, Xiaoli Lian, Li Zhang,
- Abstract要約: コードレビュー中にセキュリティ関連の問題を特定し解決するためにSecureReviewerを提案する。
まず、セキュアなコードレビュー機能をトレーニングし評価するためのデータセットを構築します。
我々は、ドメイン固有のセキュリティ知識に生成されたコメントを基盤とするRAG技術を統合する。
- 参考スコア(独自算出の注目度): 8.229920162000369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying and addressing security issues during the early phase of the development lifecycle is critical for mitigating the long-term negative impacts on software systems. Code review serves as an effective practice that enables developers to check their teammates' code before integration into the codebase. To streamline the generation of review comments, various automated code review approaches have been proposed, where LLM-based methods have significantly advanced the capabilities of automated review generation. However, existing models primarily focus on general-purpose code review, their effectiveness in identifying and addressing security-related issues remains underexplored. Moreover, adapting existing code review approaches to target security issues faces substantial challenges, including data scarcity and inadequate evaluation metrics. To address these limitations, we propose SecureReviewer, a new approach designed for enhancing LLMs' ability to identify and resolve security-related issues during code review. Specifically, we first construct a dataset tailored for training and evaluating secure code review capabilities. Leveraging this dataset, we fine-tune LLMs to generate code review comments that can effectively identify security issues and provide fix suggestions with our proposed secure-aware fine-tuning strategy. To mitigate hallucination in LLMs and enhance the reliability of their outputs, we integrate the RAG technique, which grounds the generated comments in domain-specific security knowledge. Additionally, we introduce SecureBLEU, a new evaluation metric designed to assess the effectiveness of review comments in addressing security issues. Experimental results demonstrate that SecureReviewer outperforms state-of-the-art baselines in both security issue detection accuracy and the overall quality and practical utility of generated review comments.
- Abstract(参考訳): 開発ライフサイクルの初期段階におけるセキュリティ問題の特定と対処は、ソフトウェアシステムに対する長期的なネガティブな影響を軽減するために重要である。
コードレビューは、開発者がコードベースに統合される前にチームメイトのコードをチェックできる効果的なプラクティスである。
レビューコメントの生成を効率化するために,LSMベースの手法が自動レビュー生成の能力を大幅に向上させた,さまざまな自動コードレビューアプローチが提案されている。
しかし、既存のモデルは、主に汎用コードレビューに焦点を当てており、セキュリティ関連の問題を特定し、対処する上での有効性は未検討のままである。
さらに、既存のコードレビューアプローチをセキュリティ問題に適応させるには、データ不足や不適切な評価指標など、重大な課題に直面します。
これらの制限に対処するために、コードレビュー中にセキュリティ関連の問題を識別および解決するLLMの能力を高めるために設計された新しいアプローチであるSecureReviewerを提案する。
具体的には、まず、セキュアなコードレビュー機能をトレーニングし、評価するためのデータセットを構築します。
このデータセットを活用することで、LLMを微調整してコードレビューコメントを生成し、セキュリティ上の問題を効果的に識別し、提案したセキュアな微調整戦略による修正提案を提供します。
LLMにおける幻覚を緩和し、その出力の信頼性を高めるために、ドメイン固有のセキュリティ知識において生成されたコメントを基盤とするRAG技術を統合する。
さらに、セキュリティ問題に対処する際のレビューコメントの有効性を評価するために設計された新しい評価指標SecureBLEUを紹介する。
実験の結果,SecureReviewerは,セキュリティ問題検出精度と,生成したレビューコメントの全体的な品質と実用性の両方において,最先端のベースラインを上回っていることがわかった。
関連論文リスト
- iCodeReviewer: Improving Secure Code Review with Mixture of Prompts [5.322602557660654]
iCodeReviewerは,大規模言語モデル(LLM)に基づいた,セキュアな自動レビューアプローチである。
実験結果は、F1の63.98%のセキュリティ問題同定とローカライゼーションにおけるiCodeReviewerの有効性を示す。
iCodeReviewerが生成したレビューコメントは、本番環境にデプロイされた場合の受け入れ率も最大84%に達する。
論文 参考訳(メタデータ) (2025-10-14T06:30:59Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。
広範囲に展開したことにより、大きな安全上の懸念がもたらされた。
LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。
データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。
SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T02:48:02Z) - Improving Automated Secure Code Reviews: A Synthetic Dataset for Code Vulnerability Flaws [0.0]
本稿では,セキュリティ欠陥について特にコメントする脆弱性中心のレビューからなる合成データセットの作成を提案する。
弊社のアプローチでは,Large Language Models(LLMs)を利用して,脆弱性に対する人間的なコードレビューコメントを生成する。
論文 参考訳(メタデータ) (2025-04-22T23:07:24Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。