Fugu-MT 論文翻訳(概要): Favia: Forensic Agent for Vulnerability-fix Identification and Analysis

論文の概要: Favia: Forensic Agent for Vulnerability-fix Identification and Analysis

arxiv url: http://arxiv.org/abs/2602.12500v1
Date: Fri, 13 Feb 2026 00:51:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-16 23:37:53.800206
Title: Favia: Forensic Agent for Vulnerability-fix Identification and Analysis
Title（参考訳）: Favia: 脆弱性の特定と分析のための法医学的エージェント
Authors: André Storhaug, Jiamou Sun, Jingyue Li,
Abstract要約: 脆弱性修正識別のための法医学的エージェントベースのフレームワークであるFaviaを提案する。 Faviaは、スケーラブルな候補ランキングと、深く反復的なセマンティック推論を組み合わせる。私たちは、実世界の3,708のリポジトリから800万以上のコミットからなる大規模なデータセットであるCVEVC上で、Faviaを評価しました。
参考スコア（独自算出の注目度）: 5.43098755190303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identifying vulnerability-fixing commits corresponding to disclosed CVEs is essential for secure software maintenance but remains challenging at scale, as large repositories contain millions of commits of which only a small fraction address security issues. Existing automated approaches, including traditional machine learning techniques and recent large language model (LLM)-based methods, often suffer from poor precision-recall trade-offs. Frequently evaluated on randomly sampled commits, we uncover that they are substantially underestimating real-world difficulty, where candidate commits are already security-relevant and highly similar. We propose Favia, a forensic, agent-based framework for vulnerability-fix identification that combines scalable candidate ranking with deep and iterative semantic reasoning. Favia first employs an efficient ranking stage to narrow the search space of commits. Each commit is then rigorously evaluated using a ReAct-based LLM agent. By providing the agent with a pre-commit repository as environment, along with specialized tools, the agent tries to localize vulnerable components, navigates the codebase, and establishes causal alignment between code changes and vulnerability root causes. This evidence-driven process enables robust identification of indirect, multi-file, and non-trivial fixes that elude single-pass or similarity-based methods. We evaluate Favia on CVEVC, a large-scale dataset we made that comprises over 8 million commits from 3,708 real-world repositories, and show that it consistently outperforms state-of-the-art traditional and LLM-based baselines under realistic candidate selection, achieving the strongest precision-recall trade-offs and highest F1-scores.
Abstract（参考訳）: 公開されたCVEに対応する脆弱性修正コミットの特定は、セキュアなソフトウェアメンテナンスには不可欠だが、大規模なリポジトリには数百万のコミットが含まれており、セキュリティ問題に対処する割合はごくわずかだ。従来の機械学習技術や最近の大規模言語モデル(LLM)ベースの手法を含む既存の自動化アプローチは、多くの場合、精度の低いリコールトレードオフに悩まされる。ランダムにサンプリングされたコミットに対して頻繁に評価され、候補者のコミットがすでにセキュリティ関連であり、非常に類似している現実世界の難しさをかなり過小評価していることが判明した。本稿では,スケーラブルな候補ランキングと深層および反復的セマンティック推論を組み合わせた,脆弱性修正識別のための法医学的,エージェントベースのフレームワークであるFaviaを提案する。 Faviaはまず、効率的なランク付けステージを使用してコミットの検索スペースを狭める。各コミットは、ReActベースのLLMエージェントを使用して厳格に評価される。エージェントにプレコミットリポジトリを環境として提供し、特殊なツールとともに、脆弱性のあるコンポーネントをローカライズし、コードベースをナビゲートし、コード変更と脆弱性の根本原因の間の因果関係を確立する。このエビデンス駆動のプロセスは、間接的、複数ファイル、あるいは非自明な修正の堅牢な識別を可能にする。実世界の3,708のリポジトリから800万件のコミットで構成された大規模なデータセットであるCVEVC上でFaviaを評価し、現実的な候補選択の下で、最先端の従来的およびLLMベースのベースラインを一貫して上回り、最も正確なリコールトレードオフと最高のF1スコアを実現していることを示す。

関連論文リスト

RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。 ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文参考訳（メタデータ） (2026-01-15T08:23:38Z)
Sift or Get Off the PoC: Applying Information Retrieval to Vulnerability Research with SiftRank [0.0]
3つのキー機構を通じてO(n)複雑性を達成するランキングアルゴリズムであるSiftRankを提案する。 SiftRankは何千ものアイテムを直接操作し、各ドキュメントは複数のランダム化されたバッチで評価され、一貫性のない判断が軽減される。我々はN日間の脆弱性解析における実用的効果を実証し、削減されたバイナリファームウェアパッチの2,197個の変更関数のうち、脆弱性修正関数を0.82ドルの推論コストで99秒以内に特定することに成功した。
論文参考訳（メタデータ） (2025-12-05T21:09:32Z)
The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。 CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文参考訳（メタデータ） (2025-12-01T07:05:23Z)
ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文参考訳（メタデータ） (2025-09-27T22:36:42Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
Fast and Accurate Silent Vulnerability Fix Retrieval [7.512949497610182]
CVEを修正するためのパッチコミットをトレース/検索する既存のアプローチは、2つの大きな課題に悩まされている。 SITPatchTracerは、既知の脆弱性パッチをトレースするスケーラブルで効果的な検索システムである。 SITPatchTracerを使って、GitHub Advisoryデータベース内の35の新しいCVEのパッチリンクをトレースしてマージしました。
論文参考訳（メタデータ） (2025-03-29T01:53:07Z)
Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。 Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文参考訳（メタデータ） (2025-03-22T23:59:17Z)
Detecting Security Fixes in Open-Source Repositories using Static Code Analyzers [8.716427214870459]
機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。埋め込みの構築やMLモデルをトレーニングして、脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。当社のメソッドとcommit2vecの組み合わせは,脆弱性を修正するコミットの自動識別において,最先端技術よりも明確な改善であることがわかった。
論文参考訳（メタデータ） (2021-05-07T15:57:17Z)
Automated Mapping of Vulnerability Advisories onto their Fix Commits in Open Source Repositories [7.629717457706326]
実践経験と機械学習(ML)を組み合わせたアプローチを提案する。アドバイザリから脆弱性に関する鍵情報を含むアドバイザリレコードを抽出する。影響を受けるプロジェクトのソースコードリポジトリから、候補となる修正コミットのサブセットを取得する。
論文参考訳（メタデータ） (2021-03-24T17:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。