Fugu-MT 論文翻訳(概要): The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs

論文の概要: The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs

arxiv url: http://arxiv.org/abs/2504.11711v2
Date: Thu, 17 Apr 2025 02:28:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 12:00:26.608493
Title: The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs
Title（参考訳）: The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs
Authors: Haonan Li, Hang Zhang, Kexin Pei, Zhiyun Qian,
Abstract要約: BugLensは、静的解析の精度を大幅に改善する、ポストリファインメントフレームワークである。 0.10 (raw) と 0.50 (半自動精製) から 0.72 に精度を上げ、偽陽性を著しく減少させる。この結果から,構造化LCMベースのワークフローは静的解析ツールの有効性を有意に向上させることができることが示唆された。
参考スコア（独自算出の注目度）: 17.497629884237647
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Static analysis is a cornerstone for software vulnerability detection, yet it often struggles with the classic precision-scalability trade-off. In practice, such tools often produce high false positive rates, particularly in large codebases like the Linux kernel. This imprecision can arise from simplified vulnerability modeling and over-approximation of path and data constraints. While large language models (LLMs) show promise in code understanding, their naive application to program analysis yields unreliable results due to inherent reasoning limitations. We introduce BugLens, a post-refinement framework that significantly improves static analysis precision. BugLens guides an LLM to follow traditional analysis steps by assessing buggy code patterns for security impact and validating the constraints associated with static warnings. Evaluated on real-world Linux kernel bugs, BugLens raises precision from 0.10 (raw) and 0.50 (semi-automated refinement) to 0.72, substantially reducing false positives and revealing four previously unreported vulnerabilities. Our results suggest that a structured LLM-based workflow can meaningfully enhance the effectiveness of static analysis tools.
Abstract（参考訳）: 静的解析はソフトウェアの脆弱性検出の土台だが、古典的な精度とスケーリングのトレードオフに悩まされることが多い。実際には、そのようなツールは、特にLinuxカーネルのような大規模なコードベースにおいて、高い偽陽性率をもたらすことが多い。このインプレクションは、単純化された脆弱性モデリングとパスとデータ制約の過度な近似から生じる可能性がある。大規模言語モデル(LLM)は、コード理解において有望であるが、プログラム解析への素質的な応用は、固有の推論制限のために信頼できない結果をもたらす。我々は,静的解析精度を大幅に向上させるポストリファインメントフレームワークであるBugLensを紹介する。 BugLensは、セキュリティへの影響に関するバグの多いコードパターンを評価し、静的警告に関連する制約を検証することで、従来の分析手順に従うようにLLMをガイドする。 BugLensは実世界のLinuxカーネルのバグを評価し、精度を0.10(raw)と0.50(半自動改善)から0.72に引き上げ、偽陽性を大幅に減らし、4つの未報告の脆弱性を明らかにした。この結果から,構造化LCMベースのワークフローは静的解析ツールの有効性を有意に向上させることができることが示唆された。

関連論文リスト

Minimizing False Positives in Static Bug Detection via LLM-Enhanced Path Feasibility Analysis [19.798348922632314]
大規模なバグ検出のための既存のアナライザは、しばしば偽陽性率が高い。これは主に、パス実現可能性検証におけるアナライザの能力の制限によるものだ。反復経路実現可能性分析フレームワーク LLM4PFA を提案する。
論文参考訳（メタデータ） (2025-06-12T03:11:38Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
LASHED: LLMs And Static Hardware Analysis for Early Detection of RTL Bugs [24.821587679661974]
LASHEDは2つのアプローチ(LLMと静的解析)を組み合わせて、ハードウェアセキュリティバグ検出の限界を克服する。推奨されたスキームによってフラグ付けされたインスタンスの87.5%が、CWE(Common Weaknessions)であることがわかった。文脈内学習とモデルに"再考"を求めることで、LASHEDの精度が向上する。
論文参考訳（メタデータ） (2025-04-30T16:15:53Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文参考訳（メタデータ） (2025-03-12T14:30:05Z)
KNighter: Transforming Static Analysis with LLM-Synthesized Checkers [14.02595288424478]
KNighterは、履歴パッチの知識によってガイドされる特殊な静的アナライザを生成する。これまでKNighterの合成チェッカーは、Linuxカーネルに70の新しいバグ/脆弱性を発見した。
論文参考訳（メタデータ） (2025-03-12T02:30:19Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
E&V: Prompting Large Language Models to Perform Static Analysis by Pseudo-code Execution and Verification [7.745665775992235]
大きな言語モデル(LLM)は、ソフトウェア工学のタスクに新しい機能を提供する。 LLMは擬似コードの実行をシミュレートし、最小限の努力で擬似コードにエンコードされた静的解析を効果的に実行する。 E&Vは、外部のオラクルを必要とせずに擬似コード実行の検証プロセスを含む。
論文参考訳（メタデータ） (2023-12-13T19:31:00Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文参考訳（メタデータ） (2021-02-16T07:46:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。