Fugu-MT 論文翻訳(概要): Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection

論文の概要: Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection

arxiv url: http://arxiv.org/abs/2409.13642v1
Date: Fri, 20 Sep 2024 16:47:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 06:08:43.909219
Title: Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection
Title（参考訳）: LLMエージェントと自己回帰を用いた順序付きコード解析による断層位置決めの強化
Authors: Md Nakhla Rafi, Dong Jae Kim, Tse-Hsun Chen, Shaowei Wang,
Abstract要約: 大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。 LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
参考スコア（独自算出の注目度）: 8.22737389683156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Locating and fixing software faults is a time-consuming and resource-intensive task in software development. Traditional fault localization methods, such as Spectrum-Based Fault Localization (SBFL), rely on statistical analysis of test coverage data but often suffer from lower accuracy. Learning-based techniques, while more effective, require extensive training data and can be computationally expensive. Recent advancements in Large Language Models (LLMs) offer promising improvements in fault localization by enhancing code comprehension and reasoning. However, these LLM-based techniques still face challenges, including token limitations, degraded performance with long inputs, and difficulties managing large-scale projects with complex systems involving multiple interacting components. To address these issues, we introduce LLM4FL, a novel LLM-agent-based fault localization approach that integrates SBFL rankings with a divide-and-conquer strategy. By dividing large coverage data into manageable groups and employing multiple LLM agents through prompt chaining, LLM4FL navigates the codebase and localizes faults more effectively. The approach also incorporates self-reflection and chain-of-thought reasoning, enabling agents to iteratively generate fixes and re-rank suspicious methods. We evaluated LLM4FL on the Defects4J (V2.0.0) benchmark, comprising 675 real-world faults from 14 open-source Java projects. Our results demonstrate that LLM4FL outperforms AutoFL by 19.27% in Top-1 accuracy and surpasses state-of-the-art supervised techniques such as DeepFL and Grace, all without task-specific training. Additionally, we highlight the impact of coverage splitting and prompt chaining on fault localization performance and show that different method ordering can improve Top-1 accuracy by up to 22%.
Abstract（参考訳）: ソフトウェア欠陥の配置と修正は、ソフトウェア開発における時間とリソース集約的な作業である。スペクトルベースのフォールトローカライゼーション(SBFL)のような従来のフォールトローカライゼーション手法は、テストカバレッジデータの統計解析に頼っているが、精度が低い場合が多い。学習ベースのテクニックは、より効果的ではあるが、広範なトレーニングデータを必要とし、計算コストがかかる。大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。しかし、これらのLSMベースの技術は、トークンの制限、長い入力で性能を低下させ、複数の相互作用するコンポーネントを含む複雑なシステムを持つ大規模プロジェクトを管理するのが困難であるなど、依然として課題に直面している。これらの問題に対処するために,SBFLランキングを分割・分散戦略と統合した,新しいLLMエージェントベースの障害ローカライズ手法であるLLM4FLを紹介する。大規模なカバレッジデータを管理可能なグループに分割し、プロンプトチェーンを通じて複数のLLMエージェントを採用することで、LLM4FLはコードベースをナビゲートし、障害をより効率的にローカライズする。このアプローチには自己回帰と連鎖推論も組み込まれており、エージェントが繰り返し修正を生成し、不審なメソッドを再ランクすることができる。 LLM4FLをDefects4J (V2.0.0)ベンチマークで評価した。 LLM4FLがAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回る性能を示した。さらに,適用範囲分割と連鎖の促進がフォールトローカライゼーション性能に及ぼす影響を強調し,Top-1の精度を最大22%向上させることができることを示す。

関連論文リスト

Understanding and Mitigating Errors of LLM-Generated RTL Code [7.747889860813149]
大規模言語モデル (LLM) ベースのレジスタ転送レベル (RTL) コード生成は有望であるが、全体的な成功率は相変わらず不満足である。包括的なエラー解析と手動分類を行う。その結果、ほとんどのエラーはRTLプログラミングの知識不足、回路概念の理解不足、複雑なマルチモーダル入力の誤解釈によるものであることが判明した。
論文参考訳（メタデータ） (2025-08-07T11:02:32Z)
Context-Enhanced Vulnerability Detection Based on Large Language Model [17.922081397554155]
本稿では,プログラム解析と大規模言語モデルを組み合わせたコンテキスト強化型脆弱性検出手法を提案する。具体的には、プログラム分析を用いて、様々なレベルの抽象レベルで文脈情報を抽出し、無関係なノイズを除去する。私たちのゴールは、脆弱性を正確に捉え、不要な複雑さを最小限に抑えるのに十分な詳細を提供することのバランスを取ることです。
論文参考訳（メタデータ） (2025-04-23T16:54:16Z)
Can LLMs handle WebShell detection? Overcoming Detection Challenges with Behavioral Function-Aware Framework [11.613261852608062]
悪意のあるスクリプトをWebサーバに注入するWebShell攻撃は、サイバーセキュリティの大きな脅威である。この研究は、WebShell検出のためのLarge Language Modelsの実現可能性と限界を初めて探求した。
論文参考訳（メタデータ） (2025-04-14T21:09:37Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Program Slicing in the Era of Large Language Models [7.990456190723922]
プログラムスライシングはソフトウェア工学において重要なテクニックであり、開発者は関連するコードの部分を分離することができる。本研究では,大規模言語モデル(LLM)の静的スライシングおよび動的プログラムスライシングへの応用について検討する。
論文参考訳（メタデータ） (2024-09-19T00:07:56Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文参考訳（メタデータ） (2024-04-14T07:06:12Z)
Aligning LLMs for FL-free Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文参考訳（メタデータ） (2024-04-13T02:36:40Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文参考訳（メタデータ） (2024-03-25T01:58:19Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文参考訳（メタデータ） (2024-02-27T12:26:07Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。 5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文参考訳（メタデータ） (2023-10-03T01:26:39Z)
Large Language Models in Fault Localisation [32.87044163543427]
本稿では,2つの最先端LCMであるChatGPT-3.5とChatGPT-4が断層局所化に与える影響について検討する。関数レベルのコンテキストでは、ChatGPT-4は既存のすべてのフォールトローカライゼーションメソッドより優れています。しかし、Defects4Jデータセットのコードコンテキストがクラスレベルに拡張されると、ChatGPT-4のパフォーマンスは大幅に低下する。
論文参考訳（メタデータ） (2023-08-29T13:07:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。