論文の概要: iCodeReviewer: Improving Secure Code Review with Mixture of Prompts
- arxiv url: http://arxiv.org/abs/2510.12186v1
- Date: Tue, 14 Oct 2025 06:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.208542
- Title: iCodeReviewer: Improving Secure Code Review with Mixture of Prompts
- Title(参考訳): iCodeReviewer: プロンプトの混合によるセキュアなコードレビューの改善
- Authors: Yun Peng, Kisub Kim, Linghan Meng, Kui Liu,
- Abstract要約: iCodeReviewerは,大規模言語モデル(LLM)に基づいた,セキュアな自動レビューアプローチである。
実験結果は、F1の63.98%のセキュリティ問題同定とローカライゼーションにおけるiCodeReviewerの有効性を示す。
iCodeReviewerが生成したレビューコメントは、本番環境にデプロイされた場合の受け入れ率も最大84%に達する。
- 参考スコア(独自算出の注目度): 5.322602557660654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code review is an essential process to ensure the quality of software that identifies potential software issues at an early stage of software development. Among all software issues, security issues are the most important to identify, as they can easily lead to severe software crashes and service disruptions. Recent research efforts have been devoted to automated approaches to reduce the manual efforts required in the secure code review process. Despite the progress, current automated approaches on secure code review, including static analysis, deep learning models, and prompting approaches, still face the challenges of limited precision and coverage, and a lack of comprehensive evaluation. To mitigate these challenges, we propose iCodeReviewer, which is an automated secure code review approach based on large language models (LLMs). iCodeReviewer leverages a novel mixture-of-prompts architecture that incorporates many prompt experts to improve the coverage of security issues. Each prompt expert is a dynamic prompt pipeline to check the existence of a specific security issue. iCodeReviewer also implements an effective routing algorithm to activate only necessary prompt experts based on the code features in the input program, reducing the false positives induced by LLM hallucination. Experiment results in our internal dataset demonstrate the effectiveness of iCodeReviewer in security issue identification and localization with an F1 of 63.98%. The review comments generated by iCodeReviewer also achieve a high acceptance rate up to 84% when it is deployed in production environments.
- Abstract(参考訳): コードレビューは、ソフトウェア開発の初期段階において潜在的なソフトウェア問題を特定するソフトウェアの品質を保証するための必須のプロセスである。
すべてのソフトウェア問題の中で、セキュリティ問題は識別する上で最も重要なものである。
最近の研究は、セキュアなコードレビュープロセスに必要な手作業を減らすための自動化アプローチに費やされている。
進歩にもかかわらず、静的分析、ディープラーニングモデル、迅速なアプローチを含む、セキュアなコードレビューに対する現在の自動化アプローチは、依然として限られた精度とカバレッジ、包括的な評価の欠如という課題に直面している。
これらの課題を軽減するために,大規模な言語モデル(LLM)に基づいたセキュアなコードレビュー手法であるiCodeReviewerを提案する。
iCodeReviewerは、セキュリティ問題カバレッジを改善するために多くのプロンプト専門家を組み込んだ、新しい混成型アーキテクチャを活用している。
各プロンプトエキスパートは、特定のセキュリティ問題の存在をチェックするための動的プロンプトパイプラインである。
iCodeReviewerはまた、入力プログラムのコード機能に基づいて必要なプロンプト専門家のみを活性化する効果的なルーティングアルゴリズムを実装し、LLM幻覚によって引き起こされる偽陽性を減らす。
内部データセットの実験結果から,F1 63.98% のセキュリティ問題同定とローカライゼーションにおける iCodeReviewer の有効性が示された。
iCodeReviewerが生成したレビューコメントは、本番環境にデプロイされた場合の受け入れ率も最大84%に達する。
関連論文リスト
- CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective [19.345433857645016]
CoV-Evalは、コード補完、脆弱性修復、脆弱性検出、分類など、さまざまなタスクをカバーするマルチタスクベンチマークである。
VC-Judgeは、人間の専門家と密接に一致し、LLM生成プログラムの脆弱性をレビューできる、改善された判断モデルである。
論文 参考訳(メタデータ) (2025-05-15T16:53:41Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness [110.6921470281479]
INDICTは、安全性と有用性の両方のガイダンスのために、批評家の内的対話で大きな言語モデルを強化する新しいフレームワークである。
内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。
提案手法は,安全性と有用性解析の両面において,高度な批判のレベルを提供し,出力コードの品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-23T15:55:07Z) - Toward Effective Secure Code Reviews: An Empirical Study of Security-Related Coding Weaknesses [14.134803943492345]
我々は OpenSSL と PHP の2つの大規模オープンソースプロジェクトで実証的なケーススタディを行った。
135,560のコードレビューコメントに基づいて、40のコーディング弱点カテゴリのうち35に、レビュー担当者がセキュリティ上の懸念を提起していることが分かりました。
メモリエラーやリソース管理といった過去の脆弱性に関連するコーディングの弱点は、脆弱性よりも少ない頻度で議論された。
論文 参考訳(メタデータ) (2023-11-28T00:49:00Z) - Security Defect Detection via Code Review: A Study of the OpenStack and
Qt Communities [7.2944322548786715]
セキュリティ欠陥は、コードレビューでは議論されていない。
レビューの半数以上が、開発者がセキュリティ欠陥を修正するための明確な修正戦略/ソリューションを提供しています。
開発者とレビュアーの相違は、セキュリティ欠陥を解決しない主な原因である。
論文 参考訳(メタデータ) (2023-07-05T14:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。