Fugu-MT 論文翻訳(概要): AgenticSCR: An Autonomous Agentic Secure Code Review for Immature Vulnerabilities Detection

論文の概要: AgenticSCR: An Autonomous Agentic Secure Code Review for Immature Vulnerabilities Detection

arxiv url: http://arxiv.org/abs/2601.19138v1
Date: Tue, 27 Jan 2026 03:10:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-28 15:26:51.150046
Title: AgenticSCR: An Autonomous Agentic Secure Code Review for Immature Vulnerabilities Detection
Title（参考訳）: AgenticSCR:未熟な脆弱性検出のための自律的なエージェントセキュアコードレビュー
Authors: Wachiraphan Charoenwet, Kla Tantithamthavorn, Patanamon Thongtanunam, Hong Yi Lin, Minwoo Jeong, Ming Wu,
Abstract要約: 我々は、エージェントAIであるAgenticSCRを導入し、コミット前の段階で未熟な脆弱性を検出する。我々は,未熟な脆弱性の局所化,検出,説明を行うAgenicSCRの精度を実証的に評価した。
参考スコア（独自算出の注目度）: 8.909533914802669
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Secure code review is critical at the pre-commit stage, where vulnerabilities must be caught early under tight latency and limited-context constraints. Existing SAST-based checks are noisy and often miss immature, context-dependent vulnerabilities, while standalone Large Language Models (LLMs) are constrained by context windows and lack explicit tool use. Agentic AI, which combine LLMs with autonomous decision-making, tool invocation, and code navigation, offer a promising alternative, but their effectiveness for pre-commit secure code review is not yet well understood. In this work, we introduce AgenticSCR, an agentic AI for secure code review for detecting immature vulnerabilities during the pre-commit stage, augmented by security-focused semantic memories. Using our own curated benchmark of immature vulnerabilities, tailored to the pre-commit secure code review, we empirically evaluate how accurate is our AgenticSCR for localizing, detecting, and explaining immature vulnerabilities. Our results show that AgenticSCR achieves at least 153% relatively higher percentage of correct code review comments than the static LLM-based baseline, and also substantially surpasses SAST tools. Moreover, AgenticSCR generates more correct comments in four out of five vulnerability types, consistently and significantly outperforming all other baselines. These findings highlight the importance of Agentic Secure Code Review, paving the way towards an emerging research area of immature vulnerability detection.
Abstract（参考訳）: セキュリティコードレビューはコミット前の段階で重要であり、脆弱性はタイトなレイテンシと限定されたコンテキスト制約の下で早期にキャッチされなければならない。既存のSASTベースのチェックは騒々しく、しばしば未成熟でコンテキストに依存した脆弱性を見逃す。一方、スタンドアロンのLarge Language Models (LLM)はコンテキストウィンドウによって制約され、明示的なツールの使用が欠如している。 LLMと自律的な意思決定、ツール呼び出し、コードナビゲーションを組み合わせたエージェントAIは、有望な代替手段を提供するが、コミット前のセキュアなコードレビューの有効性はまだよく理解されていない。本稿では,AgenticSCRを紹介する。AgenticSCRは,セキュリティ重視のセマンティックメモリによって強化された,コミット前段階で未熟な脆弱性を検出するための,セキュアなコードレビューのためのエージェントAIである。事前にコミットされたセキュアなコードレビューに合わせた、未成熟の脆弱性のキュレートされたベンチマークを使用して、未成熟の脆弱性をローカライズ、検出、説明するためのAgenticSCRがどの程度正確であるかを実証的に評価します。以上の結果から,AgenticSCR は静的 LLM ベースラインよりも少なくとも 153% 高い率のコードレビューコメントを達成し,SAST ツールをはるかに上回る結果となった。さらに、AgenticSCRは5つの脆弱性タイプのうち4つでより正確なコメントを生成する。これらの発見は、未熟な脆弱性検出の新たな研究領域への道を開いたAgenic Secure Code Reviewの重要性を強調している。

関連論文リスト

CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文参考訳（メタデータ） (2026-02-23T06:41:41Z)
CIPHER: Cryptographic Insecurity Profiling via Hybrid Evaluation of Responses [0.0]
我々は,Pythonコードにおける暗号的脆弱性の発生率を測定するベンチマークCIPHERを紹介する。 CIPHERは、タスク毎のセキュリティ/中立/セキュアなプロンプト変種、暗号固有の脆弱性分類、行レベルの属性を使用する。明示的なセキュアなプロンプトは、ターゲットとする問題を減らすが、全体的な暗号化上の脆弱性を確実に排除しない。
論文参考訳（メタデータ） (2026-02-01T21:06:54Z)
RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
VulnResolver: A Hybrid Agent Framework for LLM-Based Automated Vulnerability Issue Resolution [27.16762667503862]
VulnResolverは、自動脆弱性解決のための最初のハイブリッドエージェントフレームワークである。自律エージェントの適応性と、ワークフロー誘導修理の安定性を2つの特殊エージェントを通じて結合する。 VulnResolverはSEC-bench Liteの75%の問題を解決する。
論文参考訳（メタデータ） (2026-01-20T13:09:16Z)
ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。 ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文参考訳（メタデータ） (2026-01-15T08:23:38Z)
The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。 CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文参考訳（メタデータ） (2025-12-01T07:05:23Z)
SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios [17.276786247873613]
SecureAgentBenchは、セキュアなコード生成において、コードエージェントの機能を厳格に評価するために設計された105のコーディングタスクのベンチマークである。その結果、(i)現在のエージェントがセキュアなコードを生成するのに苦労していることが示され、最高のパフォーマンスのエージェントであるDeepSeek-V3.1がサポートしているSWE-agentも15.2%の正安のソリューションしか達成していない。
論文参考訳（メタデータ） (2025-09-26T09:18:57Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2025-03-05T15:22:24Z)
CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文参考訳（メタデータ） (2025-01-14T15:27:01Z)
The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文参考訳（メタデータ） (2024-09-10T10:12:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。