論文の概要: AL-Bench: A Benchmark for Automatic Logging
- arxiv url: http://arxiv.org/abs/2502.03160v2
- Date: Fri, 07 Feb 2025 13:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 11:34:35.097361
- Title: AL-Bench: A Benchmark for Automatic Logging
- Title(参考訳): AL-Bench: 自動ロギングのためのベンチマーク
- Authors: Boyin Tan, Junjielong Xu, Zhouruixing Zhu, Pinjia He,
- Abstract要約: 本稿では,自動ロギングツールに特化して設計された総合ベンチマークであるAL-Benchを紹介する。
最先端のツールによって生成されたログステートメントを持つコードは、20.1%-83.6%のケースでコンパイルできない。
最高のパフォーマンスツールでさえ、生成されたログステートメントから生成された実行時ログと、ベーストゥルースログステートメントとの間には0.213のコサイン類似性しか達成できない。
- 参考スコア(独自算出の注目度): 3.8293110324859505
- License:
- Abstract: Logging, the practice of inserting log statements into source code, is critical for improving software reliability. Recently, language model-based techniques have been developed to automate log statement generation based on input code. These tools show promising results in their own evaluation. However, current evaluation practices in log statement generation face significant challenges. The lack of a unified, large-scale dataset forces studies to rely on ad-hoc data, hindering consistency and reproducibility. Additionally, assessments based solely on metrics like code similarity fail to reflect real-world effectiveness. These limitations underscore the need for a comprehensive public benchmark to standardize evaluation. This paper introduces AL-Bench, a comprehensive benchmark designed specifically for automatic logging tools. AL-Bench includes a high-quality, diverse dataset collected from 10 widely recognized projects with varying logging requirements and introduces a novel dynamic evaluation approach. Different from the existing evaluations that focus only on components of log statements like code similarity, AL-Bench assesses both the compilability of the code with inserted log statements and the effectiveness of the logs generated by them during runtime, which we believe can better reflect the effectiveness of logging techniques in practice. AL-Bench reveals significant limitations in the state-of-the-art tools. The codes with log statements generated by the state-of-the-art tools fail to compile in 20.1%-83.6% cases. In addition, even the best-performing tool only achieves 0.213 cosine similarity between the runtime logs produced by the generated log statements and the ground-truth log statements. The results reveal substantial opportunities to further enhance the development of automatic logging tools.
- Abstract(参考訳): ログ処理は、ログステートメントをソースコードに挿入するプラクティスであり、ソフトウェアの信頼性向上に不可欠である。
近年,入力コードに基づくログステートメント生成を自動化するために,言語モデルに基づく手法が開発されている。
これらのツールは、彼ら自身の評価において有望な結果を示す。
しかし、ログステートメント生成における現在の評価プラクティスは、重大な課題に直面している。
統合された大規模なデータセットがないため、アドホックなデータに頼らざるを得なくなり、一貫性と再現性が損なわれる。
さらに、コードの類似性のようなメトリクスのみに基づくアセスメントは、実際の効果を反映しない。
これらの制限は、評価を標準化するための包括的な公開ベンチマークの必要性を浮き彫りにしている。
本稿では,自動ロギングツールに特化して設計された総合ベンチマークであるAL-Benchを紹介する。
AL-Benchには、ロギング要件の異なる10の広く認識されているプロジェクトから収集された高品質で多様なデータセットが含まれており、新しい動的評価アプローチが導入されている。
コード類似性のようなログステートメントのコンポーネントのみに焦点を当てた既存の評価とは異なり、AL-Benchは、挿入されたログステートメントによるコードのコンパイル可能性と、実行時にそれらによって生成されたログの有効性の両方を評価します。
AL-Benchは最先端ツールの大幅な制限を明らかにしている。
最先端のツールによって生成されたログステートメントを持つコードは、20.1%-83.6%のケースでコンパイルできない。
さらに、最高のパフォーマンスツールでさえ、生成されたログステートメントから生成された実行時ログと、ベーストゥルースログステートメントとの間の0.213のコサイン類似性しか達成できない。
その結果、自動ロギングツールの開発をさらに促進する大きな機会が明らかとなった。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。
我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文 参考訳(メタデータ) (2023-08-21T16:24:15Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study [32.53659676826846]
本稿では,ログステートメント生成のための大規模言語モデル (LLM) に関する最初の研究を行う。
まず、ログステートメント生成データセットであるLogBenchを構築しました。(1)LogBench-O:GitHubリポジトリから収集したログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードです。
論文 参考訳(メタデータ) (2023-07-12T06:32:51Z) - SKTR: Trace Recovery from Stochastically Known Logs [7.882975068446842]
機械学習の発展とセンサデータの利用の増加は、決定論的ログへの依存に挑戦する。
本研究では,現実に忠実な決定論的ログを生成するタスクを定式化する。
効果的なトレースリカバリアルゴリズムは、不確実な設定のために信頼できるプロセスマイニングツールを維持するための強力な助けとなるだろう。
論文 参考訳(メタデータ) (2022-06-25T15:29:20Z) - Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。
1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。
本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文 参考訳(メタデータ) (2022-04-06T07:02:23Z) - Borrowing from Similar Code: A Deep Learning NLP-Based Approach for Log
Statement Automation [0.0]
ログステートメントの位置を予測するために,更新および改良されたログ対応コードクローン検出手法を提案する。
我々は,自然言語処理(NLP)と深層学習手法を組み込んで,ログステートメントの記述予測を自動化する。
解析の結果、我々のハイブリッドNLPとコードクローン検出手法(NLP CC'd)は、ログステートメントの場所を見つける際に従来のクローン検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-02T14:03:49Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。