論文の概要: A Story About Cohesion and Separation: Label-Free Metric for Log Parser Evaluation
- arxiv url: http://arxiv.org/abs/2512.21811v1
- Date: Fri, 26 Dec 2025 00:44:07 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:20.200074
- Title: A Story About Cohesion and Separation: Label-Free Metric for Log Parser Evaluation
- Title(参考訳): 結合と分離に関する物語:ログパーザ評価のためのラベルなしメトリクス
- Authors: Qiaolin Qin, Jianchen Zhao, Heng Li, Weiyi Shang, Ettore Merlo,
- Abstract要約: 既存の評価指標はラベル付きログデータに大きく依存している。
既存の研究で使われている基底真実の異なるバージョンは、矛盾したパフォーマンスの結論につながる可能性がある。
そこで我々は,新しいログフリーテンプレートレベル指標PMSSを提案し,性能評価を行った。
- 参考スコア(独自算出の注目度): 9.344666271414688
- License:
- Abstract: Log parsing converts log messages into structured event templates, allowing for automated log analysis and reducing manual inspection effort. To select the most compatible parser for a specific system, multiple evaluation metrics are commonly used for performance comparisons. However, existing evaluation metrics heavily rely on labeled log data, which limits prior studies to a fixed set of datasets and hinders parser evaluations and selections in the industry. Further, we discovered that different versions of ground-truth used in existing studies can lead to inconsistent performance conclusions. Motivated by these challenges, we propose a novel label-free template-level metric, PMSS (parser medoid silhouette score), to evaluate log parser performance. PMSS evaluates both parser grouping and template quality with medoid silhouette analysis and Levenshtein distance within a near-linear time complexity in general. To understand its relationship with label-based template-level metrics, FGA and FTA, we compared their evaluation outcomes for six log parsers on the standard corrected Loghub 2.0 dataset. Our results indicate that log parsers achieving the highest PMSS or FGA exhibit comparable performance, differing by only 2.1% on average in terms of the FGA score; the difference is 9.8% for FTA. PMSS is also significantly (p<1e-8) and positively correlated to both FGA and FTA: the Spearman's rho correlation coefficient of PMSS-FGA and PMSS-FTA are respectively 0.648 and 0.587, close to the coefficient between FGA and FTA (0.670). We further extended our discussion on how to interpret the conclusions from different metrics, identifying challenges in using PMSS, and provided guidelines on conducting parser selections with our metric. PMSS provides a valuable evaluation alternative when ground-truths are inconsistent or labels are unavailable.
- Abstract(参考訳): ログ解析はログメッセージを構造化されたイベントテンプレートに変換し、ログの自動解析と手作業による検査作業の削減を可能にする。
特定のシステムに対して最も互換性のあるパーサを選択するために、複数の評価指標が一般的に性能比較に使用される。
しかし、既存の評価指標はラベル付きログデータに大きく依存しており、これは事前研究をデータセットの固定セットに制限し、業界におけるパーサの評価と選択を妨げる。
さらに,既存研究で用いられている地上構造の違いが,不整合性能の結論に繋がることが判明した。
これらの課題に乗じて、ログパーサの性能を評価するために、新しいラベルなしテンプレートレベル計量PMSS(parser medoid silhouette score)を提案する。
PMSSは,メドイドシルエット解析とレベンシュテイン距離を概ね線形時間差で解析することにより,パーサグルーピングとテンプレート品質の評価を行った。
ラベルベースのテンプレートレベルメトリクスであるFGAとFTAとの関係を理解するため、標準修正Loghub 2.0データセット上の6つのログパーサの評価結果を比較した。
以上の結果から,最大PMSSあるいはFGAを達成するログパーザはFGAスコアで平均2.1%の差があり,FTAでは9.8%であった。
PMSS-FGAとPMSS-FTAのスピアマンのロー相関係数はそれぞれ0.648と0.587であり、FGAとFTAの相関係数(0.670)に近い。
さらに、異なる指標から結論をどう解釈するか、PMSSを使用する際の課題を特定する方法についての議論を拡大し、我々の指標によるパーサ選択の実施に関するガイドラインを提供した。
PMSSは、基幹構造が矛盾したり、ラベルが利用できない場合に、価値ある評価方法を提供する。
関連論文リスト
- Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation [2.699704259580951]
テキストに基づく自動認知歪み検出は、主観的な性質のため難しい課題である。
一貫性のある信頼性のあるアノテータとしてLarge Language Models (LLM)の使用について検討する。
論文 参考訳(メタデータ) (2025-11-03T11:45:26Z) - Plug it and Play on Logs: A Configuration-Free Statistic-Based Log Parser [2.342181121922312]
ログ解析はログ解析において必須のタスクであり、それを実現するために多くのツールが設計されている。
セマンティックベースと比べ、既存の統計ベースはより効率的で、計算コストが低く、オンプレミスのデプロイによってプライバシーが保護される傾向にある。
統計ベースは意味ベースほど効果的ではないという共通の信念となった。
我々の研究は、新しい統計に基づくPIPLUPによってこの信念に挑戦する。
論文 参考訳(メタデータ) (2025-08-12T21:47:27Z) - Assessing the Sensitivity and Alignment of FOL Closeness Metrics [10.795521518273214]
既存のNL-, FOL-, グラフベースメトリクスの感度について検討し, サンプルFOLとそれに対応する接地構造との差を捉えた。
メトリクスを組み合わせることで、個々のメトリクスに比べて堅牢性と感度が向上することを示す。
論文 参考訳(メタデータ) (2025-01-15T06:22:35Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - Lemur: Log Parsing with Entropy Sampling and Chain-of-Thought Merging [18.823038918091207]
我々は、textbfEntropy サンプリングとチェーン・オブ・シンクトの textbfMerging (model) を用いた最先端の textbfLog 解析フレームワークを導入する。
退屈な手作業のルールを捨てるために,情報エントロピーにインスパイアされた新しいサンプリング手法を提案し,典型的なログを効率的にクラスタリングする。
大規模な公開データセットの実験を行った。
論文 参考訳(メタデータ) (2024-02-28T09:51:55Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Using Rater and System Metadata to Explain Variance in the VoiceMOS
Challenge 2022 Dataset [71.93633698146002]
VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。
本研究では,メタデータからの音声品質の主観評価とデータセットの分布不均衡から説明できる分散量について検討する。
論文 参考訳(メタデータ) (2022-09-14T00:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。