論文の概要: AL-Bench: A Benchmark for Automatic Logging
- arxiv url: http://arxiv.org/abs/2502.03160v3
- Date: Wed, 02 Apr 2025 04:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:16:57.610989
- Title: AL-Bench: A Benchmark for Automatic Logging
- Title(参考訳): AL-Bench: 自動ロギングのためのベンチマーク
- Authors: Boyin Tan, Junjielong Xu, Zhouruixing Zhu, Pinjia He,
- Abstract要約: 自動ロギングツールに特化して設計されたベンチマークであるAL-Benchを紹介する。
AL-Benchには、広く認識されている10のプロジェクトから収集された、大規模で高品質で多様なデータセットが含まれている。
ソースコードレベルでの従来の静的評価に加えて、ロギング品質のランタイム視点を提供する。
- 参考スコア(独自算出の注目度): 3.8293110324859505
- License:
- Abstract: Logging, the practice of inserting log statements into source code, is critical for improving software reliability. Recently, language model-based techniques have been developed to automate log statement generation based on input code. While these tools show promising results in prior studies, the fairness of their results comparisons is not guaranteed due to the use of ad hoc datasets. In addition, existing evaluation approaches exclusively dependent on code similarity metrics fail to capture the impact of code diff on runtime logging behavior, as minor code modifications can induce program uncompilable and substantial discrepancies in log output semantics. To enhance the consistency and reproducibility of logging evaluation, we introduce AL-Bench, a comprehensive benchmark designed specifically for automatic logging tools. AL-Bench includes a large-scale, high-quality, diverse dataset collected from 10 widely recognized projects with varying logging requirements. Moreover, it introduces a novel dynamic evaluation methodology to provide a run-time perspective of logging quality in addition to the traditional static evaluation at source code level. Specifically, AL-Bench not only evaluates the similarity between the oracle and predicted log statements in source code, but also evaluates the difference between the log files printed by both log statements during runtime. AL-Bench reveals significant limitations in existing static evaluation, as all logging tools show average accuracy drops of 37.49%, 23.43%, and 15.80% in predicting log position, level, and message compared to their reported results. Furthermore, with dynamic evaluation, AL-Bench reveals that 20.1%-83.6% of these generated log statements are unable to compile. Moreover, the best-performing tool achieves only 21.32% cosine similarity between the log files of the oracle and generated log statements.
- Abstract(参考訳): ログ処理は、ログステートメントをソースコードに挿入するプラクティスであり、ソフトウェアの信頼性向上に不可欠である。
近年,入力コードに基づくログステートメント生成を自動化するために,言語モデルに基づく手法が開発されている。
これらのツールは、先行研究において有望な結果を示すが、アドホックデータセットの使用により、結果の比較の公正性は保証されない。
さらに、コード類似度メトリクスにのみ依存する既存の評価アプローチでは、マイナーなコード修正によってプログラムがコンパイル不可能で、ログ出力セマンティクスにかなりの相違が生じるため、コード差分が実行時のロギング動作に与える影響を捉えられない。
ログ評価の一貫性と再現性を高めるため,自動ロギングツールに特化して設計された総合ベンチマークであるAL-Benchを紹介した。
AL-Benchには、さまざまなロギング要件を持つ10の広く認識されているプロジェクトから収集された、大規模で高品質で多様なデータセットが含まれている。
さらに、ソースコードレベルでの従来の静的評価に加えて、ロギング品質のランタイム視点を提供する、新しい動的評価手法も導入している。
具体的には、AL-Benchはソースコードにおけるオラクルと予測ログステートメントの類似性を評価するだけでなく、実行中に両方のログステートメントによって印刷されたログファイルの違いを評価する。
AL-Benchは既存の静的評価において大きな制限を明らかにしており、すべてのロギングツールは、報告された結果と比較してログの位置、レベル、メッセージを予測する平均精度が37.49%、23.43%、および15.80%低下している。
さらに、動的評価により、AL-Benchは生成されたログステートメントの20.1%-83.6%がコンパイルできないことを明らかにした。
さらに、最良のパフォーマンスツールは、オラクルのログファイルと生成されたログステートメントの間に21.32%のコサイン類似性しか達成していない。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。
我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文 参考訳(メタデータ) (2023-08-21T16:24:15Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study [32.53659676826846]
本稿では,ログステートメント生成のための大規模言語モデル (LLM) に関する最初の研究を行う。
まず、ログステートメント生成データセットであるLogBenchを構築しました。(1)LogBench-O:GitHubリポジトリから収集したログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードです。
論文 参考訳(メタデータ) (2023-07-12T06:32:51Z) - SKTR: Trace Recovery from Stochastically Known Logs [7.882975068446842]
機械学習の発展とセンサデータの利用の増加は、決定論的ログへの依存に挑戦する。
本研究では,現実に忠実な決定論的ログを生成するタスクを定式化する。
効果的なトレースリカバリアルゴリズムは、不確実な設定のために信頼できるプロセスマイニングツールを維持するための強力な助けとなるだろう。
論文 参考訳(メタデータ) (2022-06-25T15:29:20Z) - Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。
1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。
本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文 参考訳(メタデータ) (2022-04-06T07:02:23Z) - Borrowing from Similar Code: A Deep Learning NLP-Based Approach for Log
Statement Automation [0.0]
ログステートメントの位置を予測するために,更新および改良されたログ対応コードクローン検出手法を提案する。
我々は,自然言語処理(NLP)と深層学習手法を組み込んで,ログステートメントの記述予測を自動化する。
解析の結果、我々のハイブリッドNLPとコードクローン検出手法(NLP CC'd)は、ログステートメントの場所を見つける際に従来のクローン検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-02T14:03:49Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。