論文の概要: Defects4Log: Benchmarking LLMs for Logging Code Defect Detection and Reasoning
- arxiv url: http://arxiv.org/abs/2508.11305v1
- Date: Fri, 15 Aug 2025 08:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.795723
- Title: Defects4Log: Benchmarking LLMs for Logging Code Defect Detection and Reasoning
- Title(参考訳): Defects4Log: コード欠陥検出と推論のログのためのLLMのベンチマーク
- Authors: Xin Wang, Zhenhao Li, Zishuo Ding,
- Abstract要約: コードのロギングは、開発者がシステムランタイムの振る舞いをキャプチャするために記述する。
ロギングコードの欠陥は、ログの有用性を損なう可能性があるため、誤解を招く可能性がある。
大規模言語モデル(LLM)は、有望な一般化と推論能力を示している。
- 参考スコア(独自算出の注目度): 17.585929362588555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logging code is written by developers to capture system runtime behavior and plays a vital role in debugging, performance analysis, and system monitoring. However, defects in logging code can undermine the usefulness of logs and lead to misinterpretations. Although prior work has identified several logging defect patterns and provided valuable insights into logging practices, these studies often focus on a narrow range of defect patterns derived from limited sources (e.g., commit histories) and lack a systematic and comprehensive analysis. Moreover, large language models (LLMs) have demonstrated promising generalization and reasoning capabilities across a variety of code-related tasks, yet their potential for detecting logging code defects remains largely unexplored. In this paper, we derive a comprehensive taxonomy of logging code defects, which encompasses seven logging code defect patterns with 14 detailed scenarios. We further construct a benchmark dataset, \dataset, consisting of 164 developer-verified real-world logging defects. Then we propose an automated framework that leverages various prompting strategies and contextual information to evaluate LLMs' capability in detecting and reasoning logging code defects. Experimental results reveal that LLMs generally struggle to accurately detect and reason logging code defects based on the source code only. However, incorporating proper knowledge (e.g., detailed scenarios of defect patterns) can lead to 10.9\% improvement in detection accuracy. Overall, our findings provide actionable guidance for practitioners to avoid common defect patterns and establish a foundation for improving LLM-based reasoning in logging code defect detection.
- Abstract(参考訳): コードのロギングは、開発者がシステムランタイムの振る舞いをキャプチャするために記述し、デバッグ、パフォーマンス分析、システム監視において重要な役割を果たす。
しかし、ロギングコードの欠陥はログの有用性を損なう可能性があり、誤解を招く可能性がある。
以前の研究では、いくつかのロギングの欠陥パターンを特定し、ロギングのプラクティスに関する貴重な洞察を提供してきましたが、これらの研究は、限られたソース(例えば、コミット履歴)から派生した、限定的な欠陥パターンに焦点を合わせ、体系的で包括的な分析を欠いていることが多いのです。
さらに、大規模言語モデル(LLM)は、様々なコード関連タスクにわたる有望な一般化と推論能力を示しているが、ロギングコード欠陥を検出する可能性については、まだ明らかになっていない。
本稿では、14の詳細なシナリオを持つ7つのロギングコード欠陥パターンを含む、ロギングコード欠陥の包括的な分類法を導出する。
さらに164人の開発者によって検証された実世界のロギング欠陥からなるベンチマークデータセットである \dataset を構築した。
そこで我々は,ログコード欠陥の検出と推論におけるLLMの能力を評価するために,様々なプロンプト戦略とコンテキスト情報を活用する自動フレームワークを提案する。
実験の結果、LLMは一般的に、ソースコードのみに基づいて、ロギングコードの欠陥を正確に検出し、推論するのに苦労していることが明らかとなった。
しかし、適切な知識(例えば欠陥パターンの詳細なシナリオ)を組み込むことで、検出精度が10.9%向上する可能性がある。
本研究は,一般的な欠陥パターンを回避し,ロギングコード欠陥検出におけるLCMに基づく推論を改善する基盤を確立するための実践者に対して,実用的なガイダンスを提供するものである。
関連論文リスト
- Insights from Benchmarking Frontier Language Models on Web App Code Generation [1.7268889851975326]
本稿では,WebApp1Kベンチマークによる16のフロンティア大言語モデル(LLM)の評価から得られた知見について述べる。
結果は、全てのモデルが類似した知識を持っているが、それらの性能は、それらが犯した誤りの頻度によって区別されることを示している。
論文 参考訳(メタデータ) (2024-09-08T18:24:26Z) - Understanding Defects in Generated Codes by Language Models [0.669087470775851]
本研究では,大規模言語モデルによって生成されたコードスニペットの367の欠陥を分類,解析する。
エラーカテゴリは、LLMが頻繁に失敗する重要な領域を示し、目標とする改善の必要性を強調している。
本稿では,スクラッチパッド・プロンプト・プログラム・オブ・ソート・プロンプト・チェーン・オブ・ソート・プロンプト・チェーン・オブ・ソート・プロンプト・ストラクテッド・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・オブ・ソート・プロンプト・プロンプト・アンド・ストラクテッド・オブ・フォーンティング(Structued Chain-of-Thought Prompting)の5つの迅速な技術技術
論文 参考訳(メタデータ) (2024-08-23T21:10:09Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - LogiCode: an LLM-Driven Framework for Logical Anomaly Detection [5.989778187635765]
LogiCodeは、大規模言語モデル(LLM)を利用して、産業環境における論理的異常を識別する新しいフレームワークである。
論理的推論にLLMを利用することで、LogiCodeはPythonコードを自動生成し、不正な量や欠落要素などの異常を特定できる。
論文 参考訳(メタデータ) (2024-06-07T07:01:06Z) - Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。
当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。
本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文 参考訳(メタデータ) (2024-05-22T19:02:50Z) - To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。
最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。
脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。