Fugu-MT 論文翻訳(概要): Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation

論文の概要: Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation

arxiv url: http://arxiv.org/abs/2411.03079v2
Date: Sat, 31 May 2025 15:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:42.862777
Title: Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation
Title（参考訳）: 高精度・完全コードコンテキストを用いた偽陽性自動緩和のためのLCM指導
Authors: Jinbao Chen, Hongjing Xiang, Zuohong Zhao, Luhao Li, Yu Zhang, Boyao Ding, Qingwei Li, Songyuan Xiong,
Abstract要約: 静的アプリケーションセキュリティテスト(SAST)ツールは、ソフトウェア品質にとって重要なツールであり、開発中の潜在的なコード問題を特定する。しばしば、手動でレビューし、開発を遅くする誤った肯定的な警告を発生させる。本稿では,軽量かつ効率的な偽陽性緩和フレームワーク LLM4FPM を提案する。
参考スコア（独自算出の注目度）: 2.787944528438214
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Static Application Security Testing (SAST) tools are critical to software quality, identifying potential code issues early in development. However, they often produce false positive warnings that require manual review, slowing down development. Thus, automating false positive mitigation (FPM) is essential. The advent of Large Language Models (LLMs), with their strong abilities in natural language and code understanding, offers promising avenues for FPM. Yet current LLM-based FPM method faces two major limitations: 1. The warning-related code snippets extracted are overly broad and cluttered with irrelevant control/data flows, reducing precision; 2. Critical code contexts are missing, leading to incomplete representations that can mislead LLMs and cause inaccurate assessments. To overcome these limitations, we propose LLM4FPM , a lightweight and efficient false positive mitigation framework. It features eCPG-Slicer, which builds an extended code property graph (eCPG) to extract precise line-level code contexts for warnings. Furthermore, the integrated FARF algorithm builds a file reference graph to identify all files that are relevant to warnings in linear time. This enables eCPG-Slicer to obtain rich contextual information without resorting to expensive whole-program analysis. LLM4FPM outperforms the existing method on the Juliet dataset (F1 > 99% across various Common Weakness Enumerations) and improves label accuracy on the D2A dataset to 86%. By leveraging a lightweight open-source LLM, LLM4FPM can significantly save inspection costs up to \$2758 per run (\$0.384 per warning) on Juliet with an average inspection time of 4.7s per warning. Moreover, real-world tests on popular C/C++ projects demonstrate its practicality.
Abstract（参考訳）: 静的アプリケーションセキュリティテスト(SAST)ツールは、ソフトウェア品質にとって重要なツールであり、開発中の潜在的なコード問題を特定する。しかし、しばしば、手動でレビューし、開発を遅くする誤った肯定的な警告を発生させる。したがって、偽陽性緩和(FPM)の自動化が不可欠である。大きな言語モデル(LLM)の出現は、自然言語とコード理解において強力な能力を持ち、FPMにとって有望な道を提供する。しかし、現在のLLMベースのFPM法は2つの大きな制限に直面している。 1. 抽出された警告関連コードスニペットは、過度に広く、無関係な制御/データフローで散らばり、精度を低下させる。 2. クリティカルなコードコンテキストが欠落し、LCMを誤解させ、不正確な評価を引き起こす不完全な表現につながります。これらの制約を克服するため,軽量かつ効率的な偽陽性緩和フレームワーク LLM4FPM を提案する。 eCPG-Slicerは拡張されたコードプロパティグラフ(eCPG)を構築し、警告のための正確な行レベルのコードコンテキストを抽出する。さらに、統合FARFアルゴリズムは、線形時間で警告に関連するすべてのファイルを特定するためにファイル参照グラフを構築する。これにより、eCPG-Slicerは、高価なプログラム全体の分析に頼ることなく、リッチなコンテキスト情報を得ることができる。 LLM4FPMはJulietデータセットの既存のメソッド(さまざまなCommon Weakness EnumerationでF1 > 99%)を上回り、D2Aデータセットのラベル精度を86%向上させる。 LLM4FPM は軽量のオープンソース LLM を利用することで、1ラン当たり2758ドル(警告あたり0.384ドル)の検査コストを大幅に削減できる。さらに、人気のあるC/C++プロジェクトの実世界のテストは、その実用性を示している。

関連論文リスト

Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文参考訳（メタデータ） (2025-06-20T13:21:14Z)
D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
D-LiFT(D-LiFT)は、LLMを活用して強化学習(RL)によるデコンパイルコードの品質向上を図る自動デコンパイラバックエンドである。 D-LiFTは、コンパイルされたコードの品質を高めるための鍵となる原則に準拠している。 D-LiFT の中心となる D-SCORE は、複数の側面から逆コンパイルされたコードを評価するための統合品質評価システムである。
論文参考訳（メタデータ） (2025-06-11T19:09:08Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs [17.497629884237647]
BugLensは、静的解析の精度を大幅に改善する、ポストリファインメントフレームワークである。 0.10 (raw) と 0.50 (半自動精製) から 0.72 に精度を上げ、偽陽性を著しく減少させる。この結果から,構造化LCMベースのワークフローは静的解析ツールの有効性を有意に向上させることができることが示唆された。
論文参考訳（メタデータ） (2025-04-16T02:17:06Z)
CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文参考訳（メタデータ） (2025-03-12T14:30:05Z)
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。 LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
Impact of Large Language Models of Code on Fault Localization [2.936007114555107]
本稿では,FLタスクのための大規模言語モデルの微調整のための,単純だが効果的なシーケンス生成手法を提案する。具体的には、FLタスク用の代表エンコーダ、エンコーダデコーダ、デコーダベースの13のLLMCを微調整する。実験結果から, LLMCは50.6%, 64.2%, 72.3%の誤差位置を検出できた。
論文参考訳（メタデータ） (2024-08-19T02:36:07Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。 LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文参考訳（メタデータ） (2024-02-16T15:21:35Z)
Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-30T21:53:30Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。 5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文参考訳（メタデータ） (2023-10-03T01:26:39Z)
ZeroLeak: Using LLMs for Scalable and Cost Effective Side-Channel Patching [6.556868623811133]
セキュリティクリティカルなソフトウェア、例えばOpenSSLには、リソースや専門家が不足しているため、パッチが残っていないサイドチャネルのリークが多数含まれている。マイクロアーキテクチャのサイドチャネルリークを伴う脆弱性コードに対するパッチ生成において,LLM(Large Language Models)の使用について検討する。
論文参考訳（メタデータ） (2023-08-24T20:04:36Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。