論文の概要: Fault Localisation and Repair for DL Systems: An Empirical Study with LLMs
- arxiv url: http://arxiv.org/abs/2506.03396v1
- Date: Tue, 03 Jun 2025 21:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.055194
- Title: Fault Localisation and Repair for DL Systems: An Empirical Study with LLMs
- Title(参考訳): DLシステムのフォールトローカライゼーションと修復 : LLMを用いた実証的研究
- Authors: Jinhan Kim, Nargiz Humbatova, Gunel Jahangirova, Shin Yoo, Paolo Tonella,
- Abstract要約: 本稿では,障害局所化(FL)と修復手法の総合的な評価について述べる。
本稿では,Large Language Models (LLM) の能力を利用して,DL故障のローカライズと修復を行う手法を提案する。
- 参考スコア(独自算出の注目度): 17.586333091528594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous Fault Localisation (FL) and repair techniques have been proposed to address faults in Deep Learning (DL) models. However, their effectiveness in practical applications remains uncertain due to the reliance on pre-defined rules. This paper presents a comprehensive evaluation of state-of-the-art FL and repair techniques, examining their advantages and limitations. Moreover, we introduce a novel approach that harnesses the power of Large Language Models (LLMs) in localising and repairing DL faults. Our evaluation, conducted on a carefully designed benchmark, reveals the strengths and weaknesses of current FL and repair techniques. We emphasise the importance of enhanced accuracy and the need for more rigorous assessment methods that employ multiple ground truth patches. Notably, LLMs exhibit remarkable performance in both FL and repair tasks. For instance, the GPT-4 model achieves 44% and 82% improvements in FL and repair tasks respectively, compared to the second-best tool, demonstrating the potential of LLMs in this domain. Our study sheds light on the current state of FL and repair techniques and suggests that LLMs could be a promising avenue for future advancements.
- Abstract(参考訳): 深層学習(DL)モデルにおける欠陥に対処するために,多くの障害局所化(FL)と補修技術が提案されている。
しかし、その実用性は、事前定義されたルールに依存しているため、いまだに不確実である。
本稿では,現状のFLと補修技術の総合評価を行い,その利点と限界について検討する。
さらに,我々は,Large Language Models (LLMs) の能力を利用して,DL故障のローカライズと修復を行う新しい手法を提案する。
慎重に設計したベンチマークで評価した結果,現在のFLの強度と弱点と修復技術が明らかになった。
我々は,精度の向上の重要性と,複数の根拠的真理パッチを用いた厳密な評価手法の必要性を強調した。
特に、LLMはFLと修理作業の両方で顕著な性能を示した。
例えば、GPT-4モデルはFLと修理作業の44%と82%の改善を実現しており、この領域におけるLCMの可能性を示している。
本研究は, FLの現況と補修技術に光を当て, LLMが今後の進歩に期待できる道であることを示唆している。
関連論文リスト
- Evaluating the Generalizability of LLMs in Automated Program Repair [12.7034916462208]
DeFECTS4J-TRANSは,Deffects4Jを変換した新しいデータセットである。
Defects4J と DEFECTS4J-TRANS の両実験の結果、LLM は APR タスクにおいて限定的な一般化性を持つことが示された。
論文 参考訳(メタデータ) (2025-03-12T10:03:58Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。
大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。
LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。
14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - How Far Can We Go with Practical Function-Level Program Repair? [11.71750828464698]
本稿では,少数ショット学習機構と補修関連情報が機能レベルAPRに及ぼす影響について検討する。
補修関連情報のパワーを活用するために,デュアルLLM フレームワークを採用した LLM ベースの関数レベル APR 手法,すなわち SRepair を提案する。
論文 参考訳(メタデータ) (2024-04-19T12:14:09Z) - Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。
既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - Aligning the Objective of LLM-based Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。
我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。
この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文 参考訳(メタデータ) (2024-04-13T02:36:40Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。