Fugu-MT 論文翻訳(概要): Data-Driven Approach for Log Instruction Quality Assessment

論文の概要: Data-Driven Approach for Log Instruction Quality Assessment

arxiv url: http://arxiv.org/abs/2204.02618v1
Date: Wed, 6 Apr 2022 07:02:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 23:24:46.894598
Title: Data-Driven Approach for Log Instruction Quality Assessment
Title（参考訳）: ログ命令品質評価のためのデータ駆動アプローチ
Authors: Jasmin Bogatinovski, Sasho Nedelkoski, Alexander Acker, Jorge Cardoso, Odej Kao
Abstract要約: 優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。 1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
参考スコア（独自算出の注目度）: 59.04636530383049
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the current IT world, developers write code while system operators run the code mostly as a black box. The connection between both worlds is typically established with log messages: the developer provides hints to the (unknown) operator, where the cause of an occurred issue is, and vice versa, the operator can report bugs during operation. To fulfil this purpose, developers write log instructions that are structured text commonly composed of a log level (e.g., "info", "error"), static text ("IP {} cannot be reached"), and dynamic variables (e.g. IP {}). However, as opposed to well-adopted coding practices, there are no widely adopted guidelines on how to write log instructions with good quality properties. For example, a developer may assign a high log level (e.g., "error") for a trivial event that can confuse the operator and increase maintenance costs. Or the static text can be insufficient to hint at a specific issue. In this paper, we address the problem of log quality assessment and provide the first step towards its automation. We start with an in-depth analysis of quality log instruction properties in nine software systems and identify two quality properties: 1) correct log level assignment assessing the correctness of the log level, and 2) sufficient linguistic structure assessing the minimal richness of the static text necessary for verbose event description. Based on these findings, we developed a data-driven approach that adapts deep learning methods for each of the two properties. An extensive evaluation on large-scale open-source systems shows that our approach correctly assesses log level assignments with an accuracy of 0.88, and the sufficient linguistic structure with an F1 score of 0.99, outperforming the baselines. Our study shows the potential of the data-driven methods in assessing instructions quality and aid developers in comprehending and writing better code.
Abstract（参考訳）: 現在のITの世界では、開発者はコードを書き、システムオペレータはブラックボックスとしてコードを実行する。開発者は(未知の)オペレータにヒントを提供し、そこで発生した問題の原因が報告され、その逆もオペレータが操作中にバグを報告できる。この目的を達成するために、開発者はログレベル(例えば、"info", "error")、静的テキスト(ip {} は到達できない)、動的変数(例えば、ip {})で構成される構造化テキストであるログ命令を記述する。しかし、十分に習熟されたコーディングプラクティスとは対照的に、優れた品質特性を持つログ命令の記述方法に関するガイドラインは広く採用されていない。例えば、開発者はオペレータを混乱させメンテナンスコストを増加させるような簡単なイベントに対して、高いログレベル(例えば"エラー")を割り当てることができる。あるいは、静的テキストは特定の問題をヒントにするのに不十分である。本稿では,ログ品質評価の問題に対処し,その自動化に向けた第一歩を提供する。まず,9つのソフトウェアシステムの品質ログ命令特性の詳細な分析から始め,2つの品質特性を同定する。 1)ログレベルの正確性を評価するログレベル割り当ての補正、及び 2) イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造。これらの知見に基づき,2つの特性のそれぞれに深層学習手法を適用するデータ駆動型手法を開発した。大規模オープンソースシステムにおける広範囲な評価の結果,0.88の精度でログレベル割り当てを正しく評価し,f1スコア0.99の十分な言語構造を基準値に上回った。本研究は,データ駆動型手法がインストラクションの品質を評価できる可能性を示し,より優れたコード理解と記述を支援する。

関連論文リスト

PDLogger: Automated Logging Framework for Practical Software Development [7.860311994179783]
既存の自動ロギング技術は、分離されたサブタスクに焦点を当てている。 PDLoggerは、実用的なマルチログシナリオ向けに設計された最初のエンドツーエンドのログ生成技術である。 F1は69.2%、レベル精度は82.3%、変数精度は131.8%、メッセージ品質(BERTScore)は65.7%である。
論文参考訳（メタデータ） (2025-07-26T13:35:57Z)
On the Role of Pre-trained Embeddings in Binary Code Analysis [7.161446721947512]
事前訓練されたアセンブリコードの埋め込みは、バイナリコード解析タスクを解決するためのゴールドスタンダードになっている。自然言語処理とは対照的に、ラベル情報はバイナリコード解析において多くのタスクにおいて不足しない。我々は,120万関数のコーパスを用いて,5つの下流タスクに対するアセンブリコードに対する最近の埋め込みを体系的に評価した。
論文参考訳（メタデータ） (2025-02-12T10:50:46Z)
Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文参考訳（メタデータ） (2024-10-11T03:52:17Z)
CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair [4.554742043916029]
本稿では,従来手法の合成データを用いて,Verilog 符号化における微調整 LLM の解析を行った。我々は、非テクスト表現の扱いの困難さと、ランダムに「マイナー」ミスを犯すモデルによるトレーニング中の大きな変動の2つを識別する。我々の微調整されたStarcoder2-15Bは、VerilogEval-Machine, VerilogEval-Human, RTLLMで3.8%、10.9%、pass@1で6.6%、最先端の結果よりも優れています。
論文参考訳（メタデータ） (2024-09-19T12:15:55Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文参考訳（メタデータ） (2023-08-21T16:24:15Z)
Are They All Good? Studying Practitioners' Expectations on the Readability of Log Messages [18.823475517909884]
ログメッセージの重要性にもかかわらず、ログメッセージの可読性を構成する標準がまだ不足している。我々は,ログメッセージの可読性に対する期待を調査するため,産業従事者17人と一連のインタビューを行った。ディープラーニングモデルと機械学習モデルの両方が、平均80.0%以上のバランスの取れた精度でログメッセージの読みやすさを効果的に分類できることがわかった。
論文参考訳（メタデータ） (2023-08-17T07:53:24Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
Borrowing from Similar Code: A Deep Learning NLP-Based Approach for Log Statement Automation [0.0]
ログステートメントの位置を予測するために,更新および改良されたログ対応コードクローン検出手法を提案する。我々は,自然言語処理(NLP)と深層学習手法を組み込んで,ログステートメントの記述予測を自動化する。解析の結果、我々のハイブリッドNLPとコードクローン検出手法(NLP CC'd)は、ログステートメントの場所を見つける際に従来のクローン検出器よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-12-02T14:03:49Z)
LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文参考訳（メタデータ） (2021-11-02T15:16:08Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。