論文の概要: An Empirical Analysis of Static Analysis Methods for Detection and Mitigation of Code Library Hallucinations
- arxiv url: http://arxiv.org/abs/2604.07755v2
- Date: Fri, 10 Apr 2026 05:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 13:51:27.757905
- Title: An Empirical Analysis of Static Analysis Methods for Detection and Mitigation of Code Library Hallucinations
- Title(参考訳): コードライブラリ幻覚の検出・緩和のための静的解析手法の実証分析
- Authors: Clarissa Miranda-Pena, Andrew Reeson, Cécile Paris, Josiah Poon, Jonathan K. Kummerfeld,
- Abstract要約: 静的解析ツールは,全エラーの16~70%,図書館幻覚の14~85%を検出できる。
静的な方法では確実にキャッチできない場合を特定し、48.5%から77%の確率に上限を与える。
概して,静的解析法はある種の幻覚に対処するための安価な手法であり,その解決にどの程度の差があるのかを定量化する。
- 参考スコア(独自算出の注目度): 12.547616582921579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite extensive research, Large Language Models continue to hallucinate when generating code, particularly when using libraries. On NL-to-code benchmarks that require library use, we find that LLMs generate code that uses non-existent library features in 8.1-40% of responses. One intuitive approach for detection and mitigation of hallucinations is static analysis. In this paper, we analyse the potential of static analysis tools, both in terms of what they can solve and what they cannot. We find that static analysis tools can detect 16-70% of all errors, and 14-85% of library hallucinations, with performance varying by LLM and dataset. Through manual analysis, we identify cases a static method could not plausibly catch, which gives an upper bound on their potential from 48.5% to 77%. Overall, we show that static analysis methods are cheap method for addressing some forms of hallucination, and we quantify how far short of solving the problem they will always be.
- Abstract(参考訳): 大規模な研究にもかかわらず、大規模言語モデルは、特にライブラリを使用する場合、コード生成時に幻覚を継続する。
ライブラリ使用を必要とするNL-to-codeベンチマークでは、LLMが8.1~40%のレスポンスで、存在しないライブラリ機能を使用するコードを生成する。
幻覚の検出と緩和のための直感的なアプローチは静的解析である。
本稿では,静的解析ツールの可能性について,それらが解決できるもの,できないものの両方の観点から分析する。
静的解析ツールは,全エラーの16~70%,ライブラリ幻覚の14~85%を検出できる。
手動で解析することで、静的な手法では確実にキャッチできないケースを特定し、そのポテンシャルを48.5%から77%に上限づける。
概して,静的解析法はある種の幻覚に対処するための安価な手法であり,その解決にどの程度の差があるのかを定量化する。
関連論文リスト
- Multi-Agent Taint Specification Extraction for Vulnerability Detection [49.27772068704498]
コンテナ分析を使用した静的アプリケーションセキュリティテスト(SAST)ツールは、高品質な脆弱性検出結果を提供するものとして広く見なされている。
本稿では,Large Language Models (LLM) のセマンティック理解と従来の静的プログラム解析を戦略的に組み合わせたマルチエージェントシステムであるSemTaintを提案する。
私たちは、SemTaintを最先端のSASTツールであるCodeQLと統合し、これまでCodeQLで検出できなかった162の脆弱性の106を検出して、その効果を実証しています。
論文 参考訳(メタデータ) (2026-01-15T21:31:51Z) - A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI [54.34738767990601]
大規模言語モデルがソフトウェアエンジニアリングタスクに統合されるにつれ、コードの幻覚の理解と緩和が不可欠になる。
コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
論文 参考訳(メタデータ) (2025-11-02T02:58:41Z) - LLMSA: A Compositional Neuro-Symbolic Approach to Compilation-free and Customizable Static Analysis [13.993290878789779]
幻覚を減らしたコンパイル不要でカスタマイズ可能な静的解析のための合成ニューロシンボリックアプローチを提案する。
66.27%の精度と78.57%のリコールで、F1の工業的アプローチを0.20ポイント上回っている。
論文 参考訳(メタデータ) (2024-12-18T23:14:59Z) - Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T16:14:49Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - E&V: Prompting Large Language Models to Perform Static Analysis by
Pseudo-code Execution and Verification [7.745665775992235]
大きな言語モデル(LLM)は、ソフトウェア工学のタスクに新しい機能を提供する。
LLMは擬似コードの実行をシミュレートし、最小限の努力で擬似コードにエンコードされた静的解析を効果的に実行する。
E&Vは、外部のオラクルを必要とせずに擬似コード実行の検証プロセスを含む。
論文 参考訳(メタデータ) (2023-12-13T19:31:00Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - The Hitchhiker's Guide to Program Analysis: A Journey with Large
Language Models [18.026567399243]
大規模言語モデル(LLM)は静的解析に代わる有望な選択肢を提供する。
本稿では,LLM支援静的解析のオープン空間を深く掘り下げる。
LLiftは,静的解析ツールとLLMの両方を併用した,完全に自動化されたフレームワークである。
論文 参考訳(メタデータ) (2023-08-01T02:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。