Fugu-MT 論文翻訳(概要): The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs

論文の概要: The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs

arxiv url: http://arxiv.org/abs/2504.11711v3
Date: Sat, 31 May 2025 06:47:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.295812
Title: The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs
Title（参考訳）: The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs
Authors: Haonan Li, Hang Zhang, Kexin Pei, Zhiyun Qian,
Abstract要約: BugLensは、バグ検出のための静的解析精度を大幅に向上させる、ポストリファインメントフレームワークである。 LLMは有望なコード理解能力を示すが、プログラム分析への直接の応用は信頼できない。 LLMは、セキュリティへの影響を評価し、ソースコードから制約を検証するため、構造化された推論ステップを通じてLLMをガイドする。
参考スコア（独自算出の注目度）: 17.497629884237647
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Static analysis plays a crucial role in software vulnerability detection, yet faces a persistent precision-scalability tradeoff. In large codebases like the Linux kernel, traditional static analysis tools often generate excessive false positives due to simplified vulnerability modeling and overapproximation of path and data constraints. While large language models (LLMs) demonstrate promising code understanding capabilities, their direct application to program analysis remains unreliable due to inherent reasoning limitations. We introduce BugLens, a post-refinement framework that significantly enhances static analysis precision for bug detection. BugLens guides LLMs through structured reasoning steps to assess security impact and validate constraints from the source code. When evaluated on Linux kernel taint-style bugs detected by static analysis tools, BugLens improves precision approximately 7-fold (from 0.10 to 0.72), substantially reducing false positives while uncovering four previously unreported vulnerabilities. Our results demonstrate that a well-structured, fully automated LLM-based workflow can effectively complement and enhance traditional static analysis techniques.
Abstract（参考訳）: 静的解析はソフトウェアの脆弱性検出において重要な役割を担いますが、継続的な精度とスケーリングのトレードオフに直面しています。 Linuxカーネルのような大規模なコードベースでは、従来の静的解析ツールは、単純な脆弱性モデリングとパスとデータ制約の過剰な近似のために、過剰な偽陽性を生成することが多い。大規模言語モデル(LLM)は有望なコード理解能力を示しているが、プログラム解析への直接的な応用は、固有の推論制限のため、信頼性が低いままである。本稿では,バグ検出のための静的解析精度を大幅に向上するポストリファインメントフレームワークであるBugLensを紹介する。 BugLensはLLMを構造化推論ステップを通じてガイドし、セキュリティへの影響を評価し、ソースコードから制約を検証する。静的解析ツールによって検出されたLinuxカーネルのtaintスタイルのバグについて評価すると、BugLensは、約7倍の精度(0.10から0.72まで)を改善し、4つの未報告の脆弱性を発見しながら、偽陽性を大幅に低減する。その結果、構造化された完全に自動化されたLLMベースのワークフローは、従来の静的解析手法を効果的に補完し、強化することができることを示した。

関連論文リスト

Minimizing False Positives in Static Bug Detection via LLM-Enhanced Path Feasibility Analysis [19.798348922632314]
大規模なバグ検出のための既存のアナライザは、しばしば偽陽性率が高い。これは主に、パス実現可能性検証におけるアナライザの能力の制限によるものだ。反復経路実現可能性分析フレームワーク LLM4PFA を提案する。
論文参考訳（メタデータ） (2025-06-12T03:11:38Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
LASHED: LLMs And Static Hardware Analysis for Early Detection of RTL Bugs [24.821587679661974]
LASHEDは2つのアプローチ(LLMと静的解析)を組み合わせて、ハードウェアセキュリティバグ検出の限界を克服する。推奨されたスキームによってフラグ付けされたインスタンスの87.5%が、CWE(Common Weaknessions)であることがわかった。文脈内学習とモデルに"再考"を求めることで、LASHEDの精度が向上する。
論文参考訳（メタデータ） (2025-04-30T16:15:53Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文参考訳（メタデータ） (2025-03-12T14:30:05Z)
KNighter: Transforming Static Analysis with LLM-Synthesized Checkers [14.02595288424478]
KNighterは、履歴パッチの知識によってガイドされる特殊な静的アナライザを生成する。これまでKNighterの合成チェッカーは、Linuxカーネルに70の新しいバグ/脆弱性を発見した。
論文参考訳（メタデータ） (2025-03-12T02:30:19Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
E&V: Prompting Large Language Models to Perform Static Analysis by Pseudo-code Execution and Verification [7.745665775992235]
大きな言語モデル(LLM)は、ソフトウェア工学のタスクに新しい機能を提供する。 LLMは擬似コードの実行をシミュレートし、最小限の努力で擬似コードにエンコードされた静的解析を効果的に実行する。 E&Vは、外部のオラクルを必要とせずに擬似コード実行の検証プロセスを含む。
論文参考訳（メタデータ） (2023-12-13T19:31:00Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文参考訳（メタデータ） (2021-02-16T07:46:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。