論文の概要: Detecting and Correcting Hallucinations in LLM-Generated Code via Deterministic AST Analysis
- arxiv url: http://arxiv.org/abs/2601.19106v1
- Date: Tue, 27 Jan 2026 02:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.130313
- Title: Detecting and Correcting Hallucinations in LLM-Generated Code via Deterministic AST Analysis
- Title(参考訳): 決定論的AST分析によるLLM生成コードの幻覚の検出と修正
- Authors: Dipin Khati, Daniel Rodriguez-Cardenas, Paul Pantzer, Denys Poshyvanyk,
- Abstract要約: 本稿では,決定論的静的解析フレームワークがテキストと自動修正KCHを確実に検出できるかどうかを検討する。
生成されたコードを抽象構文木(AST)に解析し,動的に生成された知識ベース(KB)に対して検証する後処理フレームワークを提案する。
この非実行アプローチでは、決定論的ルールを使用して、APIと識別子レベルの競合を見つけて修正する。
- 参考スコア(独自算出の注目度): 11.687400527666476
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) for code generation boost productivity but frequently introduce Knowledge Conflicting Hallucinations (KCHs), subtle, semantic errors, such as non-existent API parameters, that evade linters and cause runtime failures. Existing mitigations like constrained decoding or non-deterministic LLM-in-the-loop repair are often unreliable for these errors. This paper investigates whether a deterministic, static-analysis framework can reliably detect \textit{and} auto-correct KCHs. We propose a post-processing framework that parses generated code into an Abstract Syntax Tree (AST) and validates it against a dynamically-generated Knowledge Base (KB) built via library introspection. This non-executing approach uses deterministic rules to find and fix both API and identifier-level conflicts. On a manually-curated dataset of 200 Python snippets, our framework detected KCHs with 100\% precision and 87.6\% recall (0.934 F1-score), and successfully auto-corrected 77.0\% of all identified hallucinations. Our findings demonstrate that this deterministic post-processing approach is a viable and reliable alternative to probabilistic repair, offering a clear path toward trustworthy code generation.
- Abstract(参考訳): コード生成のための大規模言語モデル(LLM)は生産性を向上するが、しばしばKCH(Knowledge Conflicting Hallucination)を導入している。
制約付き復号法や非決定論的LLM-in-the-loop修復のような既存の緩和は、これらの誤りに対して信頼できないことが多い。
本稿では,決定論的静的解析フレームワークが,自動修正KCHを確実に検出できるかどうかを検討する。
本稿では,生成されたコードを抽象構文木(AST)に解析し,ライブラリイントロスペクションを通じて動的に生成された知識ベース(KB)に対して検証する後処理フレームワークを提案する。
この非実行アプローチでは、決定論的ルールを使用して、APIと識別子レベルの競合を見つけて修正する。
100\%の精度と87.6\%のリコール(0.934 F1スコア)でKCHを検出し、認識された幻覚の77.0\%を自動修正しました。
この決定論的ポストプロセッシングアプローチは、確率的修復に代わる実現可能で信頼性の高い代替手段であり、信頼に値するコード生成への明確な道筋を提供することを示す。
関連論文リスト
- Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文 参考訳(メタデータ) (2025-05-29T05:25:27Z) - Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets [8.977790462534152]
本稿では,コードの構造に合わせた新しいラインレベルの検出とクリーン化手法であるDePAを提案する。
DePAは既存の方法よりも優れており、検出F1スコアが0.14-0.19向上し、有毒セグメントの局在精度が44-65%向上した。
論文 参考訳(メタデータ) (2025-02-27T16:30:00Z) - Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation [2.787944528438214]
静的アプリケーションセキュリティテスト(SAST)ツールは、ソフトウェア品質にとって重要なツールであり、開発中の潜在的なコード問題を特定する。
しばしば、手動でレビューし、開発を遅くする誤った肯定的な警告を発生させる。
本稿では,軽量かつ効率的な偽陽性緩和フレームワーク LLM4FPM を提案する。
論文 参考訳(メタデータ) (2024-11-05T13:24:56Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。