Fugu-MT 論文翻訳(概要): AL-Bench: A Benchmark for Automatic Logging

論文の概要: AL-Bench: A Benchmark for Automatic Logging

arxiv url: http://arxiv.org/abs/2502.03160v3
Date: Wed, 02 Apr 2025 04:13:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:07.921724
Title: AL-Bench: A Benchmark for Automatic Logging
Title（参考訳）: AL-Bench: 自動ロギングのためのベンチマーク
Authors: Boyin Tan, Junjielong Xu, Zhouruixing Zhu, Pinjia He,
Abstract要約: 自動ロギングツールに特化して設計されたベンチマークであるAL-Benchを紹介する。 AL-Benchには、広く認識されている10のプロジェクトから収集された、大規模で高品質で多様なデータセットが含まれている。ソースコードレベルでの従来の静的評価に加えて、ロギング品質のランタイム視点を提供する。
参考スコア（独自算出の注目度）: 3.8293110324859505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Logging, the practice of inserting log statements into source code, is critical for improving software reliability. Recently, language model-based techniques have been developed to automate log statement generation based on input code. While these tools show promising results in prior studies, the fairness of their results comparisons is not guaranteed due to the use of ad hoc datasets. In addition, existing evaluation approaches exclusively dependent on code similarity metrics fail to capture the impact of code diff on runtime logging behavior, as minor code modifications can induce program uncompilable and substantial discrepancies in log output semantics. To enhance the consistency and reproducibility of logging evaluation, we introduce AL-Bench, a comprehensive benchmark designed specifically for automatic logging tools. AL-Bench includes a large-scale, high-quality, diverse dataset collected from 10 widely recognized projects with varying logging requirements. Moreover, it introduces a novel dynamic evaluation methodology to provide a run-time perspective of logging quality in addition to the traditional static evaluation at source code level. Specifically, AL-Bench not only evaluates the similarity between the oracle and predicted log statements in source code, but also evaluates the difference between the log files printed by both log statements during runtime. AL-Bench reveals significant limitations in existing static evaluation, as all logging tools show average accuracy drops of 37.49%, 23.43%, and 15.80% in predicting log position, level, and message compared to their reported results. Furthermore, with dynamic evaluation, AL-Bench reveals that 20.1%-83.6% of these generated log statements are unable to compile. Moreover, the best-performing tool achieves only 21.32% cosine similarity between the log files of the oracle and generated log statements.
Abstract（参考訳）: ログ処理は、ログステートメントをソースコードに挿入するプラクティスであり、ソフトウェアの信頼性向上に不可欠である。近年,入力コードに基づくログステートメント生成を自動化するために,言語モデルに基づく手法が開発されている。これらのツールは、先行研究において有望な結果を示すが、アドホックデータセットの使用により、結果の比較の公正性は保証されない。さらに、コード類似度メトリクスにのみ依存する既存の評価アプローチでは、マイナーなコード修正によってプログラムがコンパイル不可能で、ログ出力セマンティクスにかなりの相違が生じるため、コード差分が実行時のロギング動作に与える影響を捉えられない。ログ評価の一貫性と再現性を高めるため,自動ロギングツールに特化して設計された総合ベンチマークであるAL-Benchを紹介した。 AL-Benchには、さまざまなロギング要件を持つ10の広く認識されているプロジェクトから収集された、大規模で高品質で多様なデータセットが含まれている。さらに、ソースコードレベルでの従来の静的評価に加えて、ロギング品質のランタイム視点を提供する、新しい動的評価手法も導入している。具体的には、AL-Benchはソースコードにおけるオラクルと予測ログステートメントの類似性を評価するだけでなく、実行中に両方のログステートメントによって印刷されたログファイルの違いを評価する。 AL-Benchは既存の静的評価において大きな制限を明らかにしており、すべてのロギングツールは、報告された結果と比較してログの位置、レベル、メッセージを予測する平均精度が37.49%、23.43%、および15.80%低下している。さらに、動的評価により、AL-Benchは生成されたログステートメントの20.1%-83.6%がコンパイルできないことを明らかにした。さらに、最良のパフォーマンスツールは、オラクルのログファイルと生成されたログステートメントの間に21.32%のコサイン類似性しか達成していない。

関連論文リスト

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
PDLogger: Automated Logging Framework for Practical Software Development [7.860311994179783]
既存の自動ロギング技術は、分離されたサブタスクに焦点を当てている。 PDLoggerは、実用的なマルチログシナリオ向けに設計された最初のエンドツーエンドのログ生成技術である。 F1は69.2%、レベル精度は82.3%、変数精度は131.8%、メッセージ品質(BERTScore)は65.7%である。
論文参考訳（メタデータ） (2025-07-26T13:35:57Z)
Go Static: Contextualized Logging Statement Generation [38.15795803230719]
SCLoggerは、メソッド間の静的コンテキストを持つコンテキスト化されたロギングステートメント生成アプローチである。 SCLoggerは最先端のアプローチを8.7%のロギング精度、32.1%のレベル精度、19.6%の変数精度、138.4%のテキストBLEU-4スコアで上回っている。
論文参考訳（メタデータ） (2024-02-20T12:22:59Z)
LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文参考訳（メタデータ） (2024-01-09T12:55:21Z)
FastLog: An End-to-End Method to Efficiently Generate and Insert Logging Statements [5.80502312468937]
我々は、完全なロギングステートメントの生成と挿入アクティビティをサポートするFastLogを提案する。 FastLogは最初、最も優れたトークンレベルの挿入位置を予測し、次に挿入する完全なロギングステートメントを生成する。総合的な実証分析により,本手法は効率と出力品質の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2023-11-06T04:26:20Z)
A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文参考訳（メタデータ） (2023-08-21T16:24:15Z)
Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文参考訳（メタデータ） (2023-08-17T14:19:22Z)
SKTR: Trace Recovery from Stochastically Known Logs [7.882975068446842]
機械学習の発展とセンサデータの利用の増加は、決定論的ログへの依存に挑戦する。本研究では,現実に忠実な決定論的ログを生成するタスクを定式化する。効果的なトレースリカバリアルゴリズムは、不確実な設定のために信頼できるプロセスマイニングツールを維持するための強力な助けとなるだろう。
論文参考訳（メタデータ） (2022-06-25T15:29:20Z)
Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。 1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文参考訳（メタデータ） (2022-04-06T07:02:23Z)
Borrowing from Similar Code: A Deep Learning NLP-Based Approach for Log Statement Automation [0.0]
ログステートメントの位置を予測するために,更新および改良されたログ対応コードクローン検出手法を提案する。我々は,自然言語処理(NLP)と深層学習手法を組み込んで,ログステートメントの記述予測を自動化する。解析の結果、我々のハイブリッドNLPとコードクローン検出手法(NLP CC'd)は、ログステートメントの場所を見つける際に従来のクローン検出器よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-12-02T14:03:49Z)
LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文参考訳（メタデータ） (2021-11-02T15:16:08Z)
Leveraging Code Clones and Natural Language Processing for Log Statement Prediction [0.0]
本研究の目的は、ソースコードクローンと自然言語処理(NLP)を利用してログステートメントを予測することである。本研究は,ログの自動位置検出と記述予測におけるログ認識型クローン検出の有効性を示す。
論文参考訳（メタデータ） (2021-09-08T18:17:45Z)
Self-Attentive Classification-Based Anomaly Detection in Unstructured Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文参考訳（メタデータ） (2020-08-21T07:26:55Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。