論文の概要: SemLoc: Structured Grounding of Free-Form LLM Reasoning for Fault Localization
- arxiv url: http://arxiv.org/abs/2603.29109v1
- Date: Tue, 31 Mar 2026 00:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.969208
- Title: SemLoc: Structured Grounding of Free-Form LLM Reasoning for Fault Localization
- Title(参考訳): SemLoc:フォールトローカライゼーションのためのフリーフォームLDM推論の構造的グラウンド化
- Authors: Zhaorui Yang, Haichao Zhu, Qian Zhang, Rajiv Gupta, Ashish Kundu,
- Abstract要約: 本稿では,構造化セマンティックランタイムに基づくフォールトローカライゼーションフレームワークSemLocを紹介する。
SemLoc on SemFault-250, acorpus of 250 Python program with single semantic faults。
- 参考スコア(独自算出の注目度): 6.086377855676357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fault localization identifies program locations responsible for observed failures. Existing techniques rank suspicious code using syntactic spectra--signals derived from execution structure such as statement coverage, control-flow divergence, or dependency reachability. These signals collapse for semantic bugs, where failing and passing executions follow identical code paths and differ only in whether semantic intent is satisfied. Recent LLM-based approaches introduce semantic reasoning but produce stochastic, unverifiable outputs that cannot be systematically cross-referenced across tests or distinguish root causes from cascading effects. We present SemLoc, a fault localization framework based on structured semantic grounding. SemLoc converts free-form LLM reasoning into a closed intermediate representation that binds each inferred property to a typed program anchor, enabling runtime checking and attribution to program structure. It executes instrumented programs to construct a semantic violation spectrum--a constraint-by-test matrix--from which suspiciousness scores are derived analogously to coverage-based methods. A counterfactual verification step further prunes over-approximate constraints and isolates primary causal violations. We evaluate SemLoc on SemFault-250, a corpus of 250 Python programs with single semantic faults. SemLoc outperforms five coverage-, reduction-, and LLM-based baselines, achieving Top-1 accuracy of 42.8% and Top-3 of 68%, while reducing inspection to 7.6% of executable lines. Counterfactual verification provides an additional 12% accuracy gain and identifies primary causal semantic constraints.
- Abstract(参考訳): フォールトローカライゼーションは、観測された障害の原因となるプログラムの場所を特定する。
既存の手法では、文のカバレッジ、制御フローのばらつき、依存性の到達性といった実行構造から派生した信号を構文スペクトルを用いて不審なコードにランク付けする。
これらのシグナルはセマンティックなバグのために崩壊し、そこでは失敗と実行が同一のコードパスに従っており、セマンティックな意図が満足するかどうかでのみ異なる。
最近のLCMベースのアプローチでは意味論的推論を導入しているが、体系的にテスト間で相互参照できない確率的、検証不可能なアウトプットを生成したり、カスケード効果から根本原因を区別する。
本稿では,構造的セマンティックグラウンドティングに基づくフォールトローカライズフレームワークSemLocを提案する。
SemLocは、自由形式のLCM推論を、それぞれの推論されたプロパティを型付きプログラムアンカーにバインドする、閉じた中間表現に変換し、実行時チェックとプログラム構造への帰属を可能にする。
制約・バイ・テストの行列であるセマンティック・違反スペクトルを構築するための計測プログラムを実行する。
カウンターファクト検証ステップは、過剰な近似制約をさらに引き起こし、主要な因果的違反を分離する。
SemLoc on SemFault-250, acorpus of 250 Python program with single semantic faults。
SemLocは5つのカバー、リダクション、LCMベースのベースラインを上回り、Top-1の精度42.8%、Top-3の68%を達成し、検査は実行可能ラインの7.6%に短縮された。
対実的検証は、さらなる12%の精度のゲインを提供し、主要な因果的セマンティック制約を識別する。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - The Semantic Trap: Do Fine-tuned LLMs Learn Vulnerability Root Cause or Just Functional Pattern? [14.472036099680961]
そこで我々は,脆弱性根本原因を機能パターンから切り離すための総合評価フレームワークTrapEvalを提案する。
我々は、3つのモデルファミリーにまたがる5つの最先端LCMを微調整し、それらを、CodeBLEUによって測定されたクロスデータセットテスト、セマンティック保存、および様々なセマンティックギャップの下で評価する。
従来のデータセットに対する高いベンチマークスコアは、モデルが脆弱性の真の因果論理を理解できないことを隠蔽している可能性がある。
論文 参考訳(メタデータ) (2026-01-30T07:19:17Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - LIDL: LLM Integration Defect Localization via Knowledge Graph-Enhanced Multi-Agent Analysis [16.217842423570055]
大規模言語モデル統合ソフトウェアにおける欠陥ローカライゼーションのためのマルチエージェントフレームワークLIDLを提案する。
LIDLを105のGitHubリポジトリと16のエージェントベースシステムから収集した146の現実世界の欠陥インスタンスで評価した。
論文 参考訳(メタデータ) (2026-01-09T05:47:59Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。
大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。
LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。
14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。