Fugu-MT 論文翻訳(概要): LIDL: LLM Integration Defect Localization via Knowledge Graph-Enhanced Multi-Agent Analysis

論文の概要: LIDL: LLM Integration Defect Localization via Knowledge Graph-Enhanced Multi-Agent Analysis

arxiv url: http://arxiv.org/abs/2601.05539v1
Date: Fri, 09 Jan 2026 05:47:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-12 17:41:49.849692
Title: LIDL: LLM Integration Defect Localization via Knowledge Graph-Enhanced Multi-Agent Analysis
Title（参考訳）: LIDL:知識グラフ強化マルチエージェント分析によるLLM統合欠陥ローカライゼーション
Authors: Gou Tan, Zilong He, Min Li, Pengfei Chen, Jieke Shi, Zhensu Sun, Ting Zhang, Danwen Chen, Lwin Khin Shar, Chuanfu Zhang, David Lo,
Abstract要約: 大規模言語モデル統合ソフトウェアにおける欠陥ローカライゼーションのためのマルチエージェントフレームワークLIDLを提案する。 LIDLを105のGitHubリポジトリと16のエージェントベースシステムから収集した146の現実世界の欠陥インスタンスで評価した。
参考スコア（独自算出の注目度）: 16.217842423570055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM-integrated software, which embeds or interacts with large language models (LLMs) as functional components, exhibits probabilistic and context-dependent behaviors that fundamentally differ from those of traditional software. This shift introduces a new category of integration defects that arise not only from code errors but also from misaligned interactions among LLM-specific artifacts, including prompts, API calls, configurations, and model outputs. However, existing defect localization techniques are ineffective at identifying these LLM-specific integration defects because they fail to capture cross-layer dependencies across heterogeneous artifacts, cannot exploit incomplete or misleading error traces, and lack semantic reasoning capabilities for identifying root causes. To address these challenges, we propose LIDL, a multi-agent framework for defect localization in LLM-integrated software. LIDL (1) constructs a code knowledge graph enriched with LLM-aware annotations that represent interaction boundaries across source code, prompts, and configuration files, (2) fuses three complementary sources of error evidence inferred by LLMs to surface candidate defect locations, and (3) applies context-aware validation that uses counterfactual reasoning to distinguish true root causes from propagated symptoms. We evaluate LIDL on 146 real-world defect instances collected from 105 GitHub repositories and 16 agent-based systems. The results show that LIDL significantly outperforms five state-of-the-art baselines across all metrics, achieving a Top-3 accuracy of 0.64 and a MAP of 0.48, which represents a 64.1% improvement over the best-performing baseline. Notably, LIDL achieves these gains while reducing cost by 92.5%, demonstrating both high accuracy and cost efficiency.
Abstract（参考訳）: LLM統合ソフトウェアは、大きな言語モデル(LLM)を機能コンポーネントとして組み込んだり、相互作用したりすることで、従来のソフトウェアと根本的に異なる確率的かつ文脈に依存した振る舞いを示す。このシフトは、コードエラーだけでなく、プロンプト、API呼び出し、設定、モデルアウトプットなど、LCM固有のアーティファクト間の不整合相互作用から生じる新たな統合欠陥のカテゴリを導入している。しかし、既存の欠陥ローカライゼーション技術は、不均一なアーティファクトにわたる層間依存関係のキャプチャに失敗し、不完全または誤ったエラートレースを利用することができず、根本原因を特定するための意味論的推論能力が欠如しているため、これらのLCM固有の統合欠陥を特定するのに効果がない。これらの課題に対処するため,LLM統合ソフトウェアにおける欠陥ローカライゼーションのためのマルチエージェントフレームワークであるLIDLを提案する。 LIDL(1)は, ソースコード, プロンプト, 設定ファイル間の相互作用境界を表すLLM対応アノテーションに富んだコード知識グラフを構築し, (2) LLMによって推測される3つの相補的なエラー証拠を, 候補欠陥箇所に融合させ, (3) 偽の推論を用いて, 伝播症状から真の根本原因を識別するコンテキストアウェア検証を適用した。 LIDLを105のGitHubリポジトリと16のエージェントベースシステムから収集した146の現実世界の欠陥インスタンスで評価した。その結果、LIDLはすべての指標において5つの最先端ベースラインを著しく上回り、トップ3の精度は0.64でMAPは0.48で、最高のパフォーマンスベースラインよりも64.1%向上していることがわかった。特に、LIDLはコストを92.5%削減し、高い精度とコスト効率の両立を図っている。

関連論文リスト

ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。 2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文参考訳（メタデータ） (2026-02-17T20:20:33Z)
Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文参考訳（メタデータ） (2025-10-28T11:01:10Z)
Extracting Conceptual Knowledge to Locate Software Issues [12.746044344302623]
RepoLensは、コードリポジトリの概念的知識を抽象化し、活用する新しいアプローチである。概念知識をリポジトリ全体の知識ベースに抽出するオフラインステージと、問題固有の用語を検索するオンラインステージである。 RepoLensは3つの最先端ツールを継続的に改善し、Hit@kでは平均22%、ファイルレベルのローカライゼーションではRecall@kでは46%を達成している。
論文参考訳（メタデータ） (2025-09-25T11:53:06Z)
Enhancing LLM-based Fault Localization with a Functionality-Aware Retrieval-Augmented Generation Framework [14.287359838639608]
FaR-Locは、メソッドレベルの障害ローカライゼーションを強化するフレームワークである。 FaR-Locは、LLM機能抽出、Semantic Retrieval、LLM再ランクの3つの重要なコンポーネントで構成されている。広く使われているDefects4Jベンチマーク実験により、FaR-Locは最先端のLCMベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2025-09-24T20:37:11Z)
Understanding and Mitigating Errors of LLM-Generated RTL Code [7.747889860813149]
大規模言語モデル (LLM) ベースのレジスタ転送レベル (RTL) コード生成は有望であるが、全体的な成功率は相変わらず不満足である。包括的なエラー解析と手動分類を行う。その結果、ほとんどのエラーはRTLプログラミングの知識不足、回路概念の理解不足、複雑なマルチモーダル入力の誤解釈によるものであることが判明した。
論文参考訳（メタデータ） (2025-08-07T11:02:32Z)
Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。 LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。 14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文参考訳（メタデータ） (2024-03-25T01:58:19Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。