論文の概要: An Exploratory Study of Log Placement Recommendation in an Enterprise
System
- arxiv url: http://arxiv.org/abs/2103.01755v1
- Date: Tue, 2 Mar 2021 14:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 15:50:13.805512
- Title: An Exploratory Study of Log Placement Recommendation in an Enterprise
System
- Title(参考訳): 企業システムにおけるログ配置勧告の探索的研究
- Authors: Jeanderson C\^andido, Jan Haesen, Maur\'icio Aniche, Arie van Deursen
- Abstract要約: 大規模決済企業であるAdyenのコードベースにおけるログ配置問題について検討する。
2M SLOCを合計する34,526のJavaファイルと309,527のメソッドを分析します。
当社の最高の性能モデルは、バランスの取れた精度の79%、精度の81%、リコールの60%を実現します。
- 参考スコア(独自算出の注目度): 4.7557878205580595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logging is a development practice that plays an important role in the
operations and monitoring of complex systems. Developers place log statements
in the source code and use log data to understand how the system behaves in
production. Unfortunately, anticipating where to log during development is
challenging. Previous studies show the feasibility of leveraging machine
learning to recommend log placement despite the data imbalance since logging is
a fraction of the overall code base. However, it remains unknown how those
techniques apply to an industry setting, and little is known about the effect
of imbalanced data and sampling techniques.
In this paper, we study the log placement problem in the code base of Adyen,
a large-scale payment company. We analyze 34,526 Java files and 309,527 methods
that sum up +2M SLOC. We systematically measure the effectiveness of five
models based on code metrics, explore the effect of sampling techniques,
understand which features models consider to be relevant for the prediction,
and evaluate whether we can exploit 388,086 methods from 29 Apache projects to
learn where to log in an industry setting.
Our best performing model achieves 79% of balanced accuracy, 81% of
precision, 60% of recall. While sampling techniques improve recall, they
penalize precision at a prohibitive cost. Experiments with open-source data
yield under-performing models over Adyen's test set; nevertheless, they are
useful due to their low rate of false positives. Our supporting scripts and
tools are available to the community.
- Abstract(参考訳): ロギングは複雑なシステムの運用と監視において重要な役割を果たす開発プラクティスである。
開発者は、ログステートメントをソースコードに置き、ログデータを使用して、システムが本番環境でどのように振る舞うかを理解する。
残念ながら、開発中のログの場所を期待することは難しい。
これまでの研究では、ログはコードベース全体のごく一部であるため、データの不均衡にもかかわらず、機械学習を活用してログ配置を推奨する可能性を示している。
しかし、これらの技術が業界にどのように当てはまるのかは不明であり、不均衡なデータやサンプリング技術の影響についてはほとんど知られていない。
本稿では,大規模決済企業であるAdyenのコードベースにおけるログ配置問題について検討する。
2M SLOCを合計する34,526のJavaファイルと309,527のメソッドを分析します。
コードメトリクスに基づく5つのモデルの有効性を体系的に評価し、サンプリング手法の効果を調査し、どのモデルが予測に関連があると考えられるかを理解し、29のApacheプロジェクトから388,086のメソッドを活用でき、業界環境でログの場所を学べるかどうかを評価する。
当社の最高の性能モデルは、バランスの取れた精度の79%、精度の81%、リコールの60%を実現します。
サンプリング技術はリコールを改善する一方で、精度を制限されたコストで罰する。
オープンソースデータを用いた実験は、Adyenのテストセットよりも性能の低いモデルが得られるが、偽陽性率の低いため有用である。
当社のサポートスクリプトとツールは、コミュニティで利用可能です。
関連論文リスト
- LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。
我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文 参考訳(メタデータ) (2023-08-21T16:24:15Z) - On the Effectiveness of Log Representation for Log-based Anomaly Detection [12.980238412281471]
本研究は,従来のログ解析研究から広く採用されているログ表現技術について検討し,比較する。
6つのログ表現手法を選択し、7つのMLモデルと4つの公開ログデータセットで評価する。
また、ログ表現技術を採用する際に、ログ解析プロセスと異なる特徴集約アプローチの影響についても検討する。
論文 参考訳(メタデータ) (2023-08-17T02:18:59Z) - Log-based Anomaly Detection based on EVT Theory with feedback [31.949892354842525]
本研究では,SeaLogと呼ばれる高精度で軽量かつ適応的なログベースの異常検出フレームワークを提案する。
本稿では,リアルタイムな異常検出を行うために,軽量で動的に成長するトリエ構造を用いたTrie-based Detection Agent (TDA)を提案する。
ログデータの進化に対応してTDAの精度を高めるため,専門家からフィードバックを得られるようにした。
論文 参考訳(メタデータ) (2023-06-08T08:34:58Z) - SKTR: Trace Recovery from Stochastically Known Logs [7.882975068446842]
機械学習の発展とセンサデータの利用の増加は、決定論的ログへの依存に挑戦する。
本研究では,現実に忠実な決定論的ログを生成するタスクを定式化する。
効果的なトレースリカバリアルゴリズムは、不確実な設定のために信頼できるプロセスマイニングツールを維持するための強力な助けとなるだろう。
論文 参考訳(メタデータ) (2022-06-25T15:29:20Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。