Fugu-MT 論文翻訳(概要): AL-Bench: A Benchmark for Automatic Logging

論文の概要: AL-Bench: A Benchmark for Automatic Logging

arxiv url: http://arxiv.org/abs/2502.03160v2
Date: Fri, 07 Feb 2025 13:46:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 14:23:00.976615
Title: AL-Bench: A Benchmark for Automatic Logging
Title（参考訳）: AL-Bench: 自動ロギングのためのベンチマーク
Authors: Boyin Tan, Junjielong Xu, Zhouruixing Zhu, Pinjia He,
Abstract要約: 本稿では,自動ロギングツールに特化して設計された総合ベンチマークであるAL-Benchを紹介する。最先端のツールによって生成されたログステートメントを持つコードは、20.1%-83.6%のケースでコンパイルできない。最高のパフォーマンスツールでさえ、生成されたログステートメントから生成された実行時ログと、ベーストゥルースログステートメントとの間には0.213のコサイン類似性しか達成できない。
参考スコア（独自算出の注目度）: 3.8293110324859505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Logging, the practice of inserting log statements into source code, is critical for improving software reliability. Recently, language model-based techniques have been developed to automate log statement generation based on input code. These tools show promising results in their own evaluation. However, current evaluation practices in log statement generation face significant challenges. The lack of a unified, large-scale dataset forces studies to rely on ad-hoc data, hindering consistency and reproducibility. Additionally, assessments based solely on metrics like code similarity fail to reflect real-world effectiveness. These limitations underscore the need for a comprehensive public benchmark to standardize evaluation. This paper introduces AL-Bench, a comprehensive benchmark designed specifically for automatic logging tools. AL-Bench includes a high-quality, diverse dataset collected from 10 widely recognized projects with varying logging requirements and introduces a novel dynamic evaluation approach. Different from the existing evaluations that focus only on components of log statements like code similarity, AL-Bench assesses both the compilability of the code with inserted log statements and the effectiveness of the logs generated by them during runtime, which we believe can better reflect the effectiveness of logging techniques in practice. AL-Bench reveals significant limitations in the state-of-the-art tools. The codes with log statements generated by the state-of-the-art tools fail to compile in 20.1%-83.6% cases. In addition, even the best-performing tool only achieves 0.213 cosine similarity between the runtime logs produced by the generated log statements and the ground-truth log statements. The results reveal substantial opportunities to further enhance the development of automatic logging tools.
Abstract（参考訳）: ログ処理は、ログステートメントをソースコードに挿入するプラクティスであり、ソフトウェアの信頼性向上に不可欠である。近年,入力コードに基づくログステートメント生成を自動化するために,言語モデルに基づく手法が開発されている。これらのツールは、彼ら自身の評価において有望な結果を示す。しかし、ログステートメント生成における現在の評価プラクティスは、重大な課題に直面している。統合された大規模なデータセットがないため、アドホックなデータに頼らざるを得なくなり、一貫性と再現性が損なわれる。さらに、コードの類似性のようなメトリクスのみに基づくアセスメントは、実際の効果を反映しない。これらの制限は、評価を標準化するための包括的な公開ベンチマークの必要性を浮き彫りにしている。本稿では,自動ロギングツールに特化して設計された総合ベンチマークであるAL-Benchを紹介する。 AL-Benchには、ロギング要件の異なる10の広く認識されているプロジェクトから収集された高品質で多様なデータセットが含まれており、新しい動的評価アプローチが導入されている。コード類似性のようなログステートメントのコンポーネントのみに焦点を当てた既存の評価とは異なり、AL-Benchは、挿入されたログステートメントによるコードのコンパイル可能性と、実行時にそれらによって生成されたログの有効性の両方を評価します。 AL-Benchは最先端ツールの大幅な制限を明らかにしている。最先端のツールによって生成されたログステートメントを持つコードは、20.1%-83.6%のケースでコンパイルできない。さらに、最高のパフォーマンスツールでさえ、生成されたログステートメントから生成された実行時ログと、ベーストゥルースログステートメントとの間の0.213のコサイン類似性しか達成できない。その結果、自動ロギングツールの開発をさらに促進する大きな機会が明らかとなった。

関連論文リスト

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
PDLogger: Automated Logging Framework for Practical Software Development [7.860311994179783]
既存の自動ロギング技術は、分離されたサブタスクに焦点を当てている。 PDLoggerは、実用的なマルチログシナリオ向けに設計された最初のエンドツーエンドのログ生成技術である。 F1は69.2%、レベル精度は82.3%、変数精度は131.8%、メッセージ品質(BERTScore)は65.7%である。
論文参考訳（メタデータ） (2025-07-26T13:35:57Z)
Go Static: Contextualized Logging Statement Generation [38.15795803230719]
SCLoggerは、メソッド間の静的コンテキストを持つコンテキスト化されたロギングステートメント生成アプローチである。 SCLoggerは最先端のアプローチを8.7%のロギング精度、32.1%のレベル精度、19.6%の変数精度、138.4%のテキストBLEU-4スコアで上回っている。
論文参考訳（メタデータ） (2024-02-20T12:22:59Z)
LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文参考訳（メタデータ） (2024-01-09T12:55:21Z)
FastLog: An End-to-End Method to Efficiently Generate and Insert Logging Statements [5.80502312468937]
我々は、完全なロギングステートメントの生成と挿入アクティビティをサポートするFastLogを提案する。 FastLogは最初、最も優れたトークンレベルの挿入位置を予測し、次に挿入する完全なロギングステートメントを生成する。総合的な実証分析により,本手法は効率と出力品質の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2023-11-06T04:26:20Z)
A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文参考訳（メタデータ） (2023-08-21T16:24:15Z)
Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文参考訳（メタデータ） (2023-08-17T14:19:22Z)
SKTR: Trace Recovery from Stochastically Known Logs [7.882975068446842]
機械学習の発展とセンサデータの利用の増加は、決定論的ログへの依存に挑戦する。本研究では,現実に忠実な決定論的ログを生成するタスクを定式化する。効果的なトレースリカバリアルゴリズムは、不確実な設定のために信頼できるプロセスマイニングツールを維持するための強力な助けとなるだろう。
論文参考訳（メタデータ） (2022-06-25T15:29:20Z)
Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。 1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文参考訳（メタデータ） (2022-04-06T07:02:23Z)
Borrowing from Similar Code: A Deep Learning NLP-Based Approach for Log Statement Automation [0.0]
ログステートメントの位置を予測するために,更新および改良されたログ対応コードクローン検出手法を提案する。我々は,自然言語処理(NLP)と深層学習手法を組み込んで,ログステートメントの記述予測を自動化する。解析の結果、我々のハイブリッドNLPとコードクローン検出手法(NLP CC'd)は、ログステートメントの場所を見つける際に従来のクローン検出器よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-12-02T14:03:49Z)
LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文参考訳（メタデータ） (2021-11-02T15:16:08Z)
Leveraging Code Clones and Natural Language Processing for Log Statement Prediction [0.0]
本研究の目的は、ソースコードクローンと自然言語処理(NLP)を利用してログステートメントを予測することである。本研究は,ログの自動位置検出と記述予測におけるログ認識型クローン検出の有効性を示す。
論文参考訳（メタデータ） (2021-09-08T18:17:45Z)
Self-Attentive Classification-Based Anomaly Detection in Unstructured Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文参考訳（メタデータ） (2020-08-21T07:26:55Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。